JP2005158044A - 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 - Google Patents

情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 Download PDF

Info

Publication number
JP2005158044A
JP2005158044A JP2004310655A JP2004310655A JP2005158044A JP 2005158044 A JP2005158044 A JP 2005158044A JP 2004310655 A JP2004310655 A JP 2004310655A JP 2004310655 A JP2004310655 A JP 2004310655A JP 2005158044 A JP2005158044 A JP 2005158044A
Authority
JP
Japan
Prior art keywords
character string
keyword
search
data
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004310655A
Other languages
English (en)
Other versions
JP4783563B2 (ja
Inventor
Masahiro Kataoka
正弘 片岡
Takashi Furuta
孝 古田
Takashi Yamashita
高志 山下
Takashi Tsubokura
孝 坪倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004310655A priority Critical patent/JP4783563B2/ja
Publication of JP2005158044A publication Critical patent/JP2005158044A/ja
Application granted granted Critical
Publication of JP4783563B2 publication Critical patent/JP4783563B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な検索を行うこと。
【解決手段】「山路来て何やらゆかしすみれ草(松尾芭蕉)」のような複文節の見出しのもとに、当該俳句や作者の解説が記述されているコンテンツから、上記見出しを順次抽出する。そしてこの見出し中の孤立するかな文字を削除し、さらに旧字・外字などを正字に変換することで、「山路来何やらゆかしすみれ草(松尾芭蕉)」のような複文節のキーワードを作成する。ユーザの入力した検索文字列が「山路来て」だったとすると、かなサプレスおよび文字変換後の検索文字列「山路来」を上記キーワードと照合し、完全一致または部分一致するキーワードに対応する見出しを検索結果として表示する。また、各キーワードに設定された複数の属性からコンテンツを検索することもできる。
【選択図】 図2

Description

この発明は、情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置に関する。
従来技術による検索システムを大別すると、第1に、辞書・辞典・マニュアルなどのコンテンツ検索、第2に、DB(データベース)検索(たとえば、特許文献1参照。)、第3に、Web上のホームページ検索の3種類に分類できる。
このうち、第1のコンテンツ検索については、すでにCD−ROM化されている国語・漢和・英和・和英などの辞書類や用語集のほか、専門辞書、各種マニュアルや社内規定など、検索機能を装備するコンテンツのニーズが拡大している。また、近年のパソコンの普及とブロードバンドの整備の進展により、こうしたコンテンツのWeb上での利用が増加している。
そしてこのコンテンツ検索はJIS−X4081として規格化されており、簡単で効率的な検索を実現するための機能が盛り込まれている。このJIS−X4081には、他のDB検索やホームページ検索に比較して以下のような利点がある。
第1の利点としては、日本語に特有な検索が可能な点である。たとえば「柿落とし(こけらおとし)」「大仏二郎(おさらぎじろう)」など、難解な読みがなによる見出し語の検索ができる。また「へんき(騙欺)」と「べんぎ(便宜)」と「ペンキ(番瀝青)」、「さっき(殺気)」と「さつき(五月)」、あるいは「パラメーター」と「パラメータ」を同一視するか否かなど、清音・濁音・半濁音・促音・拗音・長音の取り扱いを柔軟に変更できる。
第2の利点としては、目的に応じた検索が可能な点である。たとえば薬の事典では、個々の薬の解説中に効果のある病名(薬効)と副作用のある病名とが混在しているが、この中から特定の病気に効果のある薬、あるいは副作用のある薬のみを検索することができる。また、英和辞書で「take」と「with」が併用されている英文用例を検索することができる。
第3の利点としては、種々のキーワードによる検索が可能な点である。たとえば英和辞書内の単語「read」を、文字列「read」で検索できるのはもちろん、その訳語である「読む」からも検索することができる。また文学辞典で、各作家についての解説にその作品名のキーワードを付与しておき、作家名のほか作品名からも作家を検索可能なようにできる。
特開平10−91635号公報
しかしながらこのJIS−X4081によるコンテンツ検索においても、従来以下のような問題点があった。
第1に、複文節の見出しの検索の不備によってデータ編集コストが増大するという問題点があった。すなわち、現状のJIS−X4081では、単文節の見出しに対する前方一致検索および後方一致検索の機能しかないので、たとえば俳句集や短歌集、法令集など複文節の見出し(「山路来て何やらゆかしすみれ草(松尾芭蕉)」「第四十一条 特許出願等に基づく優先権主張」など)を有するコンテンツでは、中間の文節の文字列を検索することができない。そのため現状では、複文節を単文節に分解するとともに一項目について複数のキーワードを収録することで、中間の文節による検索を可能としているが、この単文節への切り分けの自動化が困難で、多大な編集コストが必要となる。
第2に、キーワードに対する属性の単一設定の制限による検索機能に限界があるという問題点があった。現状のJIS−X4081では、一つのキーワードについて設定できる属性は一つのみである。たとえば「山路来て何やらゆかしすみれ草(松尾芭蕉)」から切り出されたキーワード「すみれ」には属性「季語」、「松尾芭蕉」には属性「作者」を、それぞれ設定することはできるが、季語の中でも特に春の季語であるとか、作者の中でも特に江戸時代の作者であるとかいった詳細な設定はできない。そのため、たとえば江戸時代の春の俳句のみを検索するといった多機能な検索ができなかった。
第3に、キーワードと完全に、あるいは部分的にでも同一の文字列を入力しないと目的のコンテンツを検索できないという問題点があった。現状のJIS−X4081では、たとえば国語辞書内の項目「繰り出し」を「繰出し」「繰出」などで検索することができない。換言するとこれらの文字列による検索を可能とするためには、あらかじめユーザによる入力パターンを予測して、「繰り出し」「繰出し」「繰出」などの複数のキーワードを用意しておかなければならず、データ量や編集コストの増大につながってしまう。上記は送りがなの表記ゆれの例であるが、他の例としてはたとえば外来語の「バイオリン」と「ヴァイオリン」(複数の発音が存在することによる表記ゆれ)、「大沢」と「大澤」(正字のほか旧字、異体字、外字など複数の文字が存在することによる表記ゆれ)などがある。
この発明は、上述した従来技術による問題点を解消するため、情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な情報検索を行うことが可能な情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置は、複数の文節により構成される文字列を検索対象データの中から抽出し、当該文字列からキーワードを生成するとともに、当該キーワードに複数の属性を設定してインデックスデータを生成することを特徴とする。
この発明によれば、たとえば「山路来て何やらゆかしすみれ草(松尾芭蕉)」のような複文節の文字列をそのまま(厳密にはそのままではなく、後述のかなサプレス処理や文字変換処理を経た当該文字列を)キーワードとするので、上記文字列から個々の単語を切り分ける必要がない。
また、この発明にかかる情報検索プログラムおよび当該プログラムを格納するコンピュータ読み取り可能な記録媒体は、ユーザが入力した検索文字列を異なる表記の検索文字列に変換するとともに、複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索することを特徴とする。
この発明によれば、たとえば「繰り出し」のほかに「繰出し」「繰出」など、検索文字列として使用される可能性のあるすべての文字列を事前にキーワードとして用意しておく必要がない。
本発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置によれば、情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な情報検索を行うことができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置の好適な実施の形態を詳細に説明する。
(実施の形態1)
図1は、この発明の実施の形態にかかる情報検索装置のハードウエア構成の一例を示す説明図である。図示するように実施の形態にかかる情報検索装置は、CPU101、ROM102、RAM103、HDD(ハードディスクドライブ)104、HD(ハードディスク)105、FDD(フレキシブルディスクドライブ)106、FD(フレキシブルディスク)107、ディスプレイ108、ネットワークI/F(インターフェース)109、キーボード110およびマウス111を備えている。また、上記各部はバス100により接続されている。
図中、CPU101は装置全体の制御を司る。ROM102はブートプログラムなどを記憶している。RAM103はCPU101のワークエリアとして使用される。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御にしたがって書き込まれたデータを記憶する。
FDD106は、CPU101の制御にしたがってFD107に対するデータのリード/ライトを制御する。FD107は、FDD106の制御にしたがって書き込まれたデータを記憶する。なお、FD107は着脱可能な記録媒体の一例であり、FD107に代えてCD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。
ディスプレイ108は、カーソル、ウィンドウ、アイコンなどをはじめ、文書や画像などの各種データを表示する。ネットワークI/F109はLAN/WANなどのネットワークに接続され、当該ネットワークと装置内部とのデータの送受信を司る。キーボード110は、文字、数字、各種指示などの入力のための複数のキーを備え、押下されたキーに対応するデータを装置内部へ入力する。マウス111は本体下部のボールの回転量と回転方向、および本体上部の各ボタンのON/OFFを随時装置内部へ入力する。
次に、図2はこの発明の実施の形態1にかかる情報検索装置の機能的構成を示す説明図である。図示するように実施の形態1にかかる情報検索装置は、コンテンツデータ200、インデックスデータ生成部201、変換辞書202、属性定義データ203、インデックスデータ204、キーワードデータ検索部205、検索文字列候補データ検索部206およびコンテンツデータ表示部207を備えている。
まず、コンテンツデータ200は本装置による検索の対象となるデータである。このコンテンツデータ200は具体的には俳句辞典であり、下記に示すように、俳句とその作者とが<midashi>タグに、解説が<kaisetsu>タグに、それぞれ記述されているものとする(XML形式)。なお、コンテンツデータ200は単一のファイルであっても、複数のファイルから構成されるのであってもよい。
<midashi>山路来て何やらゆかしすみれ草(松尾芭蕉)</midashi>
<kaisetsu>・・・・・・</kaisetsu>
<midashi>柿くへば鐘が鳴るなり法隆寺(正岡子規)</midashi>
<kaisetsu>・・・・・・</kaisetsu>
次に、インデックスデータ生成部201はコンテンツデータ200、およびユーザからの入力データにもとづいて後述するインデックスデータ204を生成する機能部である。図示するようにインデックスデータ生成部201は、文字列抽出部201a、表記系キーワード生成部201b、かなキーワード生成部201cおよび属性設定部201dから構成される。
図3はインデックスデータ生成部201によるインデックスデータ生成処理の手順を示すフローチャートである。図3のフローチャートにおいて、インデックスデータ生成部201は、まずその文字列抽出部201aにより、コンテンツデータ200内から後述する表記系キーワードおよびかなキーワードの基礎となるべき文字列、具体的にはその<midashi>タグに記述された俳句およびその作者を順次抽出する(ステップS301)。
なお、以下ではこの文字列抽出部201aにより抽出された文字列を「見出しデータ」という。ここではコンテンツデータ200が上記のような構造であるため、抽出される見出しデータは常に複文節(少なくとも俳句と作者の2文節を含む)となるが、一般に見出しデータは必ずしも複文節でなくともよく、複文節の見出しデータと単文節の見出しデータとが混在していてもよい(コンテンツデータ200の種類によって、<midashi>タグ内の文字列は複文節であることも単文節であることもあり得る)。
また、ここでは文字列抽出部201aにより自動抽出された見出しデータのみを使用して後述する表記系キーワードおよびかなキーワードを生成するが、これとともにユーザがコンテンツデータ200から手動で切り出した、あるいは任意に入力した単文節もしくは複文節の文字列からもキーワードを生成するようにしてもよい。
次にインデックスデータ生成部201は、その表記系キーワード生成部201bにより、ステップS301で得られた見出しデータについてかなサプレス処理を行う(ステップS302)。かなサプレスとは文字列中の孤立したかな文字を削除する処理をいい、たとえばステップS301で抽出された見出しデータが「繰り出し」だったとすると、前後を漢字に挟まれた「り」および末尾の「し」が削除される結果、ステップS302によるかなサプレス後の文字列は「繰出」となる。
なお、本発明において「かな」とは「ひらがな」および「かたかな」の両者を含むものとする。また、かなサプレスにより削除される孤立したかな文字には、前後を漢字に挟まれたかな一文字、末尾のかな一文字のほか、先頭のかな一文字(「お酒」の「お」など)が含まれる。また、必ずしも一文字である必要はなく、前後を漢字に挟まれたN個以下の連続するかな文字(列)、先頭あるいは末尾のN個以下の連続するかな文字(列)を削除するようにしてもよい。たとえばN=2の場合、「この道を行く人なしに秋の暮(松尾芭蕉)」のかなサプレス後の文字列は「道行人なしに秋暮(松尾芭蕉)」となる。
次にインデックスデータ生成部201は、その表記系キーワード生成部201bにより、変換前の文字と変換後の文字とを対応づけて保持する特定文字変換辞書202aを参照して、かなサプレス後の見出しデータ中の変換前文字を変換後文字に変換する(ステップS303)。
具体的には、たとえばかたかな「ヴァ」は「バ」、「ヴィ」は「ビ」、「ヴ」は「ブ」、「ヴェ」は「ベ」、「ヴォ」は「ボ」に、正字以外の文字(旧字、異体字、外字など)は正字に、それぞれ置き換える。したがって、たとえばステップS301で抽出された見出しデータが「屋根の上のヴァイオリン弾き」、ステップS302によるかなサプレス後の見出しデータが「屋根上ヴァイオリン弾」だったとすると、ステップS303による文字変換後の見出しデータは「屋根上バイオリン弾」となる。同様に、旧字の「大澤」は正字の「大沢」に変換されることになる。そして、かなサプレスおよび文字変換後の見出しデータ、具体的には「繰出」「屋根上バイオリン弾」「大沢」などが、後述するインデックスデータ204中の「表記系キーワード」となる。
なお、特定文字変換辞書202aは正確には、外来語などに含まれる「ヴァ」「ヴィ」「ヴ」「ヴェ」「ヴォ」を「バ」「ビ」「ブ」「ベ」「ボ」に変換するための外来語変換辞書と、正字以外の文字(旧字、異体字、外字など)を正字に変換するための正字変換辞書とに分かれている。もっとも、辞書をこのように分割しているのは主に実用上の理由(具体的には辞書検索の効率化・高速化)からであるので、ここでは特に両者を区別せず、まとめて特定文字変換辞書202aということとする。
通常、キーワードとしては単語(単文節の文字列)を使用するが、本発明ではかなサプレスおよび文字変換後の文字列(単文節であると複文節であるとを問わない)をキーワードとすることで、従来必要であった個々の単語への分割を不要としている。また、後述のようにユーザが入力した検索文字列についてもかなサプレスおよび文字変換を行って、上記キーワードと照合するので、「繰り出し/繰出し/繰出」「バイオリン/ヴァイオリン」「大沢/大澤」といったあらゆる入力パターンを事前に予測する必要がなく、インデックスデータ204の容量の縮小、およびその編集コストの削減を実現できる。
また、本発明ではこの表記系キーワードのほかに、かなキーワードを用意して、かな文字列による検索も可能なようにしている。ステップS304〜S305はこのかなキーワードの生成にかかる処理である(なお、ステップS302〜S303とステップS304〜S305との順序は入れ替わっていてもよい)。
すなわち、インデックスデータ生成部201はその表記系キーワード生成部201bにより、上述の見出しデータから表記系キーワードを生成する一方、そのかなキーワード生成部201cにより、見出しデータのうちの漢字文字列および漢字かな混じり文字列を、漢字かな変換辞書202bを参照してかな文字列に変換する(ステップS304)。このとき、かなに変換できない(漢字かな変換辞書202bにない)漢字があった場合は警告を表示する。
なお、漢字かな変換辞書202bは正確には、一般によく使用される語彙からなる「標準漢字かな変換辞書」と、使用頻度の低い語彙や特定のコンテンツに特有の語彙などからなる「難読漢字かな変換辞書」とに分かれている。もっとも、辞書をこのように分割しているのは主に実用上の理由(具体的には辞書検索の効率化・高速化)からであるので、ここでは特に両者を区別せず、まとめて漢字かな変換辞書202bということとする。
次にかなキーワード生成部201cは、上記変換後のかな文字列をあらかじめ指定されたパラメータにしたがってさらに変換することで、その表記形式を統一する(ステップS305)。このパラメータとしては、たとえば、ひらがなをかたかなに変換する、長音を省略する、濁音および/または半濁音を清音に変換する、促音および/または拗音を大文字に変換するなどがある。
これらのパラメータがすべてONに設定されていた場合、たとえばステップS301で抽出された見出しデータが「繰り出し」だったとすると、当該文字列はステップS304で「くりだし」、ステップS305でさらに「クリタシ」に変換されることになる。そしてこの「クリタシ」が、後述するインデックスデータ204中の「かなキーワード」となる。
上述の処理で得られた表記系キーワードとかなキーワードを、それぞれコンテンツデータ200内におけるその抽出箇所(当該キーワードの基礎となった見出しデータが抽出された箇所)と対応づけてインデックスデータ204とすることで、任意のキーワードによるコンテンツデータ200の検索は実現できる。しかし本発明では、さらに上記各キーワードに任意の属性を設定することで、属性からのコンテンツデータ200の検索も可能なようにする。そして、この属性の設定を制御するのが属性設定部201dであり、キーワードに設定可能な各属性の名称とその階層構造とを定義するのが属性定義データ203である。
属性設定部201dは、キーワードに設定可能な各属性の名称とその階層構造とを属性定義データ203から読み出して、たとえば図4のような属性設定画面を表示する。そしてこの画面により、ユーザからの属性の入力を受け付ける(ステップS306)。
一単語であっても事情は同じであるが、本発明では特にキーワードが「俳句+作者」のような複文節であるため、一つのキーワードについて、様々な観点から様々な属性を付与できる場合が多い。たとえば「山路来何やらゆかしすみれ草(松尾芭蕉)」であれば、「季語」という観点では、春の季語「すみれ」を含むことからその属性は「春」であり、また季語の中でも特に花の季語を含むことから、その属性は「花」である。また、「作者」という観点では「江戸時代」「男性」「薫風」など、松尾芭蕉に付随する多数の属性が考えられる。
そこで本発明では、一つのキーワードについて、属性定義データ203中の複数の属性を設定できるようにする。一キーワードあたりに設定できる属性の個数は任意(無限)である。逆に、あるキーワードにつき何らの属性も設定しないことも可能である。
たとえばユーザが図4の一覧で、「山路来て何やらゆかしすみれ草(松尾芭蕉)」を指定した状態で、季語の観点から「春」と「花」、作者の観点から「江戸時代」「男性」「薫風」を、それぞれ選択の上「設定」ボタン400を押下したとすると、当該入力を受け付けた属性設定部201dは、上記文字列から生成された表記系キーワードおよびかなキーワードに、選択された属性を示すIDを下記のように設定する(ステップS307)。
<属性設定前>
山路来何やらゆかしすみれ草(松尾芭蕉)
ヤマシキテナニヤラユカシスミレクサ(マツオハシヨウ)
<属性設定後>
山路来何やらゆかしすみれ草(松尾芭蕉)[Shift]春花江男薫
ヤマシキテナニヤラユカシスミレクサ(マツオハシヨウ)[Shift]春花江男薫
区切り文字であるShiftコード([Shift])以降に「春」「花」などとあるのが、表記系キーワードあるいはかなキーワードに付与された属性のIDである。ここでは「春」「花」など漢字一文字を属性IDとしているが、たとえば各属性に連番を付与しておき、選択された属性の番号をShiftコードの後に列挙するようにしてもよい。漢字一文字の表現には通常2バイト必要であるので、属性の個数が65536個(2の16乗)を超えない限り、番号で属性を指定したほうがデータ量面では有利である。
なお、各キーワードについて複数の属性を保持するだけであれば、上記のような形式でなく、たとえばキーワードを格納するRDB(リレーショナルデータベース)に「春」「花」など個々の属性ごとのフィールドを設けるようにしてもよい。しかしながらこの場合、設定できる属性の個数に比例してDBが巨大化するとともに、たとえば属性を一つ追加するだけでDB全体の再編成が必要となる。
これを避けるため、たとえば「属性」というフィールドを一つだけ設け、その中に「春」「花」など各キーワードに設定されている属性IDを格納するようにしてもよい(上述の特許文献1は画像の属性として任意の単語を設定するものであるが、原理的にはこの方式である)。しかしながらこの方式では、まったく属性の設定されていないキーワードが大部分である中に、多数の属性を有するキーワードが混在しているような場合、一部のキーワードのためだけに「属性」フィールドを確保しなければならず、検索効率とともにメモリやディスクの使用効率も悪化する。上記のように、属性の設定されたキーワードに設定された属性のIDのみを付加することで、最小限のコストで属性からのコンテンツ検索を実現できる。
なお、本発明では表記系キーワードやかなキーワードだけでなく、さらに見出しデータを構成する個々の単語などについても属性を設定できるようにする。上述のように本発明においては、形態素解析などによる単語の切り分けが不要である点が一つのメリットであるが、逆にユーザがそれを望む場合にまで切り分けを禁止する趣旨ではない。たとえば図4の画面で、「山路来て何やらゆかしすみれ草(松尾芭蕉)」の全体でなく、「すみれ」
の一単語のみが指定された状態で属性「春」および「花」が選択されると、属性設定部201dは
すみれ[Shift]春花
のような一連のデータを生成する。そしてこのデータは、後述する「検索文字列候補データ」として、インデックスデータ204に組み入れられる。
次にインデックスデータ生成部201は、上記で得られた見出しデータ、(属性つき)表記系キーワード、(属性つき)かなキーワード、および検索文字列候補データから、図5に模式的に示すようなインデックスデータ204を生成する(ステップS308)。図示するようにインデックスデータ204は、大別してキーワードデータ、見出しデータ、および検索文字列候補データの3つから構成される。
図中、「キーワードデータ」内の「キーワード収録パラメータ」とは、上記キーワードの生成・収録時のパラメータ、具体的にはステップS302のかなサプレスで連続する何個のかなを削除したか(上述のNの値)や、ステップS303でどの文字を変換したか(「ヴァ」行→「バ」行変換のみ/正字変換のみ/「ヴァ」行→「バ」行変換および正字変換、など)、あるいはステップS305のかな→かな変換処理で使用された上述のパラメータのON/OFFなどから構成される。また、「上位インデックス」はキーワードのグループ(たとえば「さ行」の文字から始まるキーワードなど)ごとに設定され、もっぱらインデックスデータ204の検索の高速化を目的とするものである。
また、図示するようにインデックスデータ204として、キーワードのほかその基礎となった「見出しデータ」も保持しておくのは、検索結果一覧中でキーワードの代わりにこの見出しデータを使用するためである。
たとえば見出しデータ「古池や蛙飛び込む水の音(松尾芭蕉)」から得られた表記系キーワード「古池蛙飛込水音(松尾芭蕉)」は、漢字間の一文字のかなが削除されているため、検索結果としてそのままユーザに提示するには適さない。また、対応するかなキーワード「フルイケヤカワストヒコムミスノオト(マツオハシヨウ)」もステップS305のような加工がされているため、本来は濁音であるべき箇所が清音化しているなど、そのまま表示しても分かりにくいことが多い。
そこでインデックスデータ204内に見出しデータ「古池や蛙飛び込む水の音(松尾芭蕉)」を保持しておき、表記系キーワード「古池蛙飛込水音(松尾芭蕉)」およびかなキーワード「フルイケヤカワストヒコムミスノオト(マツオハシヨウ)」のそれぞれに当該データへのポインタを対応づけておく。そして検索結果一覧では、ヒットしたキーワードそのものでなく、そのリンク先の見出しデータを表示するようにする。なお、この見出しデータにさらにその抽出箇所(コンテンツデータ200内での抽出箇所)へのポインタを対応づけることで、検索結果一覧中の個々の見出しデータからコンテンツデータ200を頭出しできるようにする。
図2に戻り、次にキーワードデータ検索部205は、ユーザが入力した検索条件にしたがってインデックスデータ204(のうち特にキーワードデータ)を検索する機能部である。図示するようにキーワードデータ検索部205は、入出力部205a、文字列変換部205b、文字列検索部205c、属性検索部205d、絞り込み部205eおよび結果一覧作成部205fから構成される。
図6はキーワードデータ検索部205によるインデックスデータ検索処理の手順を示すフローチャートである。キーワードデータ検索部205は、まずその入出力部205aにより、所定の検索画面を表示してユーザからの検索条件の入力を受け付ける(ステップS601)。この検索条件としては、任意の文字列(単文節であると複文節であるとを問わない。なお、以下ではこの文字列を「検索文字列」という)、あるいは属性定義データ203で定義された任意の属性が指定可能である。また、ANDやORなどで複数の条件を組み合わせることもできる。
次に、キーワードデータ検索部205はその文字列変換部205bにより、上記で入力された検索条件中の検索文字列(もしあれば)を下記のように変換することで、後述する文字列検索部205cが使用する照合用データを作成する(ステップS602)。
(1)検索文字列にかな以外の文字が含まれている場合
この場合、後述する文字列検索部205cはインデックスデータ204中の表記系キーワードを検索する(検索文字列を表記系キーワードとマッチングする)ので、文字列変換部205bは検索文字列を、表記系キーワードの生成・収録時と同一の手順で変換したものを照合用データとする。すなわち、たとえば検索文字列が「屋根の上のヴァイオリン弾き」だったとすると、当該文字列中の孤立したかなを削除して「屋根上ヴァイオリン弾」とした後、さらに特定文字変換辞書202aに登録されている「ヴァ」を「バ」に変換して、最終的に「屋根上バイオリン弾」とする。
(2)検索文字列に含まれる文字がかなのみの場合
この場合、後述する文字列検索部205cはインデックスデータ204中のかなキーワードを検索する(検索文字列をかなキーワードとマッチングする)ので、文字列変換部205bは検索文字列を、かなキーワードの生成・収録時と同一の手順で変換したものを照合用データとする。たとえば、かなキーワードの生成にあたって上述の4つのパラメータがすべてONだった場合、検索文字列「やねのうえのばいおりんひき」は「ヤネノウエノハイオリンヒキ」に変換されることになる。
次に、キーワードデータ検索部205はその文字列検索部205cにより、インデックスデータ204内のキーワードのうち、上記で作成された照合用データと完全一致または部分一致するものを検索する(ステップS603)。部分一致のパターンとしては、たとえば照合用データがキーワード中のある文節と完全一致する場合、ある文節と前方一致する場合、ある文節と後方一致する場合、あるいは文節とは無関係に、照合用データがキーワードの一部と一致する場合などがある。なお、部分一致のパターンをユーザが検索時に指定できるようにしてもよい。
次に、キーワードデータ検索部205はその属性検索部205dにより、検索条件中の属性(もしあれば)でインデックスデータ204を検索して、当該属性が付与されているキーワードを検索する(ステップS604)。なお、ステップS603で表記系キーワードを検索した場合はステップS604でも表記系キーワードを、かなキーワードを検索した場合はかなキーワードを、それぞれ検索する。
その後、キーワードデータ検索部205はその絞り込み部205eにより、文字列検索部205cによる検索結果と属性検索部205dによる検索結果との双方に共通するキーワードを絞り込む(ステップS605)。次に結果一覧作成部205fにより、上記で絞り込まれたキーワードのリンク先である見出しデータを順次読み出し(ステップS606)、これらの一覧である検索結果一覧を作成する(ステップS607)。そして、作成した検索結果一覧を入出力部205aにより画面表示する(ステップS608)。
図2に戻り、次に検索文字列候補データ検索部206は、インデックスデータ204(のうち特に検索文字列候補データ)の中からユーザが指定した属性を有するもの(検索文字列候補)を検索する機能部である。特に俳句辞典などの場合、ユーザが検索文字列として適切な語句を思いつけない場合があるので、たとえば「春」「花」など特定の属性を付与された検索文字列候補データを一覧表示することで、ユーザによる検索文字列の入力を支援する。
図7は検索文字列候補データ検索部206によるインデックスデータ検索処理の手順を示すフローチャートである。検索文字列候補データ検索部206は、まずその入出力部206aにより、図8に示すような検索文字列候補画面を表示して、ユーザからの属性の入力を受け付ける(ステップS701)。
図示するように上記画面では、属性定義データ203で定義されている属性が一覧表示される。そして、ユーザがこの中から任意の属性を選択して「候補表示」ボタン800を押下すると、これをその入出力部206aで検知した検索文字列候補データ検索部206は、次にその属性検索部206bにより、インデックスデータ204内の検索文字列候補データから、上記で選択された属性を有するものを検索する(ステップS702)。そして、さらにその候補一覧作成部206cにより、上記検索にヒットした検索文字列候補データの一覧を作成するとともに(ステップS703)、当該一覧をその入出力部206aにより、図8の画面の候補一覧表示エリア801(初期状態では空欄)に表示する(ステップS704)。
この図8の画面で、ユーザがいずれかの文字列を指定した状態で「追加」ボタン802を押下するか、あるいは直接、検索文字列入力エリア803に任意の文字列を入力して「検索」ボタン804を押下すると(ステップS705:Yes)、これをその入出力部206aで検知した検索文字列候補データ検索部206は、キーワードデータ検索部205を呼び出して、検索文字列入力エリア803内の文字列を検索文字列とする検索を実行させる(図6ステップS602へ移行)。すなわちこれを受けたキーワードデータ検索部205は、上記検索文字列から照合用データを作成するとともに、インデックスデータ204の中から当該文字列を含むキーワードを検索して、当該キーワードに対応する見出しデータからなる検索結果一覧を作成する。
図2に戻り、次にコンテンツデータ表示部207は、キーワードデータ検索部205から指示されたコンテンツデータ200を画面表示する機能部である。キーワードデータ検索部205は、その入出力部205aにより、上述の検索結果一覧中でいずれかの見出しデータがクリックされたことを検知すると、インデックスデータ204を検索して、当該見出しデータに対応するコンテンツデータ200へのポインタを取得する。次にコンテンツデータ表示部207に、上記ポインタで特定されるコンテンツデータ200を画面表示するよう指示する。そしてこれを受けたコンテンツデータ表示部207が、その読み込み部207aにより、コンテンツデータ200の中から指示されたコンテンツデータ200を読み込むとともに、その入出力部207bにより当該データを画面表示する。
以上説明した実施の形態1によれば、従来必要であった見出しからの単語の切り分けや、「繰り出し」「繰出し」「繰出」といった様々なバリエーションの収録が不要で、コンテンツ検索に必要なインデックスをコンパクトに、かつ低コストで作成できる。しかも各キーワードに複数の属性を設定できるので、コンテンツをこれらの属性から多面的に検索することが可能である。さらに、たとえば法律用語集など専門性の高いコンテンツでは、ユーザが検索文字列そのものを正確に思い出せない場合があるが、本発明ではその候補となる文字列を一覧表示するので、専門外のユーザでも容易に検索を実行することができる。
なお、上述した実施の形態1では「繰り出し」「繰出し」「繰出」のように比較的微小な表記の差異(表記ゆれ)を想定しているため、たとえば正式名称である「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」を、意味的には同一でも表記は大きく異なる「雇用機会均等法」や「雇均法」から検索することまではできない。
そして従来はこれを可能とするため、「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」について考え得る、様々な略語・略称・通称などを事前にキーワードとして用意していたのであるが、元の文字列中のどの文字が、どのような順序で組み合わされて略語となるかはしばしば予測が困難であった(地方や方言などによっても略語には様々なバリエーションが存在する)。
そこでたとえば図6のステップS602における検索文字列の変換(照合用データの作成)時に、一つの検索文字列を分割して複数の照合用データを作成し、それぞれの照合用データによりキーワードを検索するようにしてもよい。
たとえば検索文字列が「雇均法」だった場合、上述のかなサプレスおよび文字変換後の当該文字列をさらに一文字ずつに分割して、「雇」「均」「法」の3つの照合用データを作成する。なお、検索文字列を分割するか否かをユーザが検索時に指定できるようにしてもよい。たとえば検索画面に「検索」ボタンと「略語検索」ボタンの2つを設け、「検索」ボタンが押下されたときは、検索文字列「雇均法」を分割せず照合用データ「雇均法」で検索を行い、「略語検索」ボタンが押下されたときは、検索文字列「雇均法」を照合用データ「雇」「均」「法」に分割してそれぞれで検索を行う。なお、必ずしも文字単位で分割する必要はなく、たとえば「雇用機会均等法」であれば「雇用」「機会」「均等」「法」のように、文節単位で分割することももちろん可能である。
そして、たとえば「「雇」でヒットしたキーワード∩「均」でヒットしたキーワード∩「法」でヒットしたキーワード」を求め、当該キーワードに対応する見出しデータの一覧を検索結果一覧とする。これにより、検索文字列「雇均法」から、「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」のように「雇」「均」「法」のすべてを順不同で含む見出しデータ(および当該見出しデータと対応づけられたコンテンツ)を検索することが可能となる。すなわち表記ゆれの範疇にとどまらない、大きな表記の差異にも、本発明は照合用データの作成にいわば一手間かけるだけで容易に対応できる。
なお、図2に示した各機能部は必ずしも同一の装置内に存在する必要はない。たとえばコンテンツデータ200・インデックスデータ204およびこれらの検索ツールをCD−ROMに格納して顧客に販売する形態では、メーカー側のサーバなどにコンテンツデータ200、インデックスデータ生成部201、変換辞書202、属性定義データ203およびインデックスデータ204が存在し、上記CD−ROMを組み込まれた顧客側のPCなどにコンテンツデータ200、変換辞書202、属性定義データ203、インデックスデータ204、キーワードデータ検索部205、検索文字列候補データ検索部206およびコンテンツデータ表示部207が存在することになる。
(実施の形態2)
さて上述した実施の形態1では、俳句辞典などあらかじめ用意されたコンテンツデータ200を検索対象としたが、以下で説明する実施の形態2のように、検索対象はたとえばユーザがRSSリーダで自動収集したRSS(RDF Site Summary/Rich Site Summary/Really simple Syndication)であってもよい。
この発明の実施の形態2にかかる情報検索装置のハードウエア構成は、図1に示した実施の形態1のそれと同一であるので説明を省略する。図9は、この発明の実施の形態2にかかる情報検索装置の機能的構成を示す説明図である。
まずRSSデータ900は、Webサイトの見出し(title)や概要(description)、さらには当該Webサイトを構成する各項目の見出しや概要などが記述されたXMLファイルである。RSSデータ900はWebサイト内の全情報のサマリーであってもよいが、ある時点以降に当該サイトに追加された情報(新着ニュースなど)のみのサマリーであってもよい。なお、RSSデータ900のデータ構造は公知であるので、ここでは詳細な説明を省略する。
次に、インデックスデータ生成部901の機能は、図2に示した実施の形態1のインデックスデータ生成部201と同一である(処理対象がコンテンツデータ200であるかRSSデータ900であるかの差異にすぎない)。またインデックスデータ生成部901が使用するデータ、具体的には変換辞書902や属性定義データ903も図2の変換辞書202や属性定義データ203と同一である。したがって図9のインデックスデータ904も、図2のインデックスデータ204と同様の構成となり、当該データを検索するキーワードデータ検索部905や検索文字列候補データ検索部906の機能も、図2のキーワードデータ検索部205や検索文字列候補データ検索部206の機能と同一となる。
次に、RSSデータ収集部907およびRSSデータ表示部908は、いずれも既存のRSSリーダにより実現され、前者はあらかじめ指定されたURLを巡回して、上述のRSSデータ900を収集する機能部、後者はその読み込み部908aにより、収集されたRSSデータ900を読み込むとともに、その入出力部908bにより、図10に示すようなリーダ画面を表示する機能部である。
図10中、エリア1000には巡回先として指定されたWebサイトの一覧が、エリア1001にはエリア1000で選択中のサイトのRSSに記述された見出しが、エリア1002にはエリア1002で選択中の見出しに対応する概要が、それぞれ表示されている。そしてRSSデータ表示部908の入出力部908bは、図示する画面でRSSデータ900の検索が指示されたこと(具体的にはプルダウンメニューの「検索」が選択されたこと)を検知すると、キーワードデータ検索部905に指示して、図6に示したインデックスデータ検索処理を実行させる。なお、図11は上記処理の結果、ステップS608で表示される検索結果一覧画面1100の一例を示す説明図である。
図9に戻り、次にWebサイト表示部909は、キーワードデータ検索部905やRSSデータ表示部908から指示されたWebサイトを画面表示する機能部である。図10のリーダ画面や図11の検索結果一覧画面1100でいずれかの見出しデータがクリックされると、これを検知したキーワードデータ検索部905やRSSデータ表示部908から、Webサイト表示部909へ上記データに対応するURLが通知される。そしてWebサイト表示部909は、その読み込み部909aによりインターネットに接続して、上記URLで特定されるファイルを読み込むとともに、その入出力部909bにより当該ファイルを画面表示する。
以上説明した実施の形態2によれば、辞書・辞典などあらかじめ用意されたコンテンツに限らず、たとえば既存のRSSリーダと連携することで、刻々と変化する上に必ずしも語彙の統制が取れていないインターネット上の情報からでも、ユーザが必要とする情報を容易にかつ漏れなく検索することが可能となる。
なお、本実施の形態で説明した情報検索方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
(付記1)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
(付記2)前記キーワード生成工程では、前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字(以下「孤立したかな文字」という)を削除することで当該文字列から前記キーワードを生成することを特徴とする前記付記1に記載の情報検索プログラム。
(付記3)前記キーワード生成工程では、前記文字列抽出工程で抽出された文字列中の第1の文字を第2の文字に変換することで当該文字列から前記キーワードを生成することを特徴とする前記付記1に記載の情報検索プログラム。
(付記4)さらに、前記文字列抽出工程で抽出された文字列中の漢字をかなに変換することで当該文字列からかなキーワードを生成するかなキーワード生成工程を含み、
前記属性設定工程では、前記キーワード生成工程で生成されたキーワードおよび前記かなキーワード生成工程で生成されたかなキーワードに複数の属性を設定するとともに、
前記インデックスデータ生成工程では、前記属性設定工程で属性を設定されたキーワードおよびかなキーワードを含むインデックスデータを生成することを特徴とする前記付記1〜付記3のいずれか一つに記載の情報検索プログラム。
(付記5)前記属性設定工程では、前記キーワード生成工程で生成されたキーワードまたは前記かなキーワード生成工程で生成されたかなキーワードのほか前記検索対象データの中からユーザが指定した文字列に少なくとも一つの属性を設定するとともに、
前記インデックスデータ生成工程では、前記属性設定工程で属性を設定されたキーワードまたはかなキーワードおよび前記文字列を含むインデックスデータを生成することを特徴とする前記付記1〜付記4のいずれか一つに記載の情報検索プログラム。
(付記6)複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索プログラムであって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
(付記7)前記文字列変換工程では、前記検索文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字(以下「孤立したかな文字」という)を削除することで当該文字列を前記異なる表記の検索文字列に変換することを特徴とする前記付記6に記載の情報検索プログラム。
(付記8)前記文字列変換工程では、前記検索文字列中の第1の文字を第2の文字に変換することで当該文字列を前記異なる表記の検索文字列に変換することを特徴とする前記付記6に記載の情報検索プログラム。
(付記9)さらに、前記検索対象データ内の文字列であってユーザが指定した属性を設定されているものを前記インデックスデータの中から検索する検索文字列候補検索工程と、
前記検索文字列候補検索工程で検索された文字列を一覧表示する検索文字列候補表示工程と、
をコンピュータに実行させることを特徴とする前記付記6〜付記8のいずれか一つに記載の情報検索プログラム。
(付記10)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字(以下「孤立したかな文字」という)を削除することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
(付記11)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中の第1の文字を第2の文字に変換することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記第1の文字を前記第2の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
(付記12)前記付記1〜付記11のいずれか一つに記載のプログラムを格納するコンピュータ読み取り可能な記録媒体。
(付記13)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
を含むことを特徴とする情報検索方法。
(付記14)複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索方法であって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。
(付記15)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字(以下「孤立したかな文字」という)を削除することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。
(付記16)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中の第1の文字を第2の文字に変換することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記第1の文字を前記第2の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。
(付記17)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードに複数の属性を設定する属性設定手段と、
前記属性設定手段により属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
を備えることを特徴とする情報検索装置。
(付記18)複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索装置であって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。
(付記19)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字(以下「孤立したかな文字」という)を削除することで当該文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。
(付記20)複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列中の第1の文字を第2の文字に変換することで当該文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
ユーザが入力した検索文字列中の前記第1の文字を前記第2の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。
以上のように、本発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置は、必ずしも見出しが単文節であるとは限らない検索対象データのインデックスの作成、および当該インデックスの検索に有用であり、特に当該見出しが、古語、専門用語あるいは新語など従来技術による自動切り分けが難しい語彙からなる場合に適している。
この発明の実施の形態にかかる情報検索装置のハードウエア構成の一例を示す説明図である。 この発明の実施の形態1にかかる情報検索装置の機能的構成を示す説明図である。 インデックスデータ生成部201によるインデックスデータ生成処理の手順を示すフローチャートである。 属性設定画面の一例を示す説明図である。 インデックスデータ204の構造を模式的に示す説明図である。 キーワードデータ検索部205によるインデックスデータ検索処理の手順を示すフローチャートである。 検索文字列候補データ検索部206によるインデックスデータ検索処理の手順を示すフローチャートである。 検索文字列候補画面の一例を示す説明図である。 この発明の実施の形態2にかかる情報検索装置の機能的構成を示す説明図である。 リーダ画面の一例を示す説明図である。 検索結果一覧画面1100の一例を示す説明図である。
符号の説明
100 バス
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 ディスプレイ
109 ネットワークI/F
110 キーボード
111 マウス
200 コンテンツデータ
201,901 インデックスデータ生成部
201a,901a 文字列抽出部
201b,901b 表記系キーワード生成部
201c,901c かなキーワード生成部
201d,901d 属性設定部
202,902 変換辞書
202a,902a 特定文字変換辞書
202b,902b 漢字かな変換辞書
203,903 属性定義データ
204,904 インデックスデータ
205,905 キーワードデータ検索部
205a,905a 入出力部
205b,905b 文字列変換部
205c,905c 文字列検索部
205d,905d 属性検索部
205e,905e 絞り込み部
205f,905f 結果一覧作成部
206,906 検索文字列候補データ検索部
206a,906a 入出力部
206b,906b 属性検索部
206c,906c 候補一覧作成部
900 RSSデータ
907 RSS収集部
908 RSSデータ表示部
908a 読み込み部
908b 入出力部
909 Webサイト表示部
909a 読み込み部
909b 入出力部


Claims (5)

  1. 複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
    前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
    前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
    前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
    をコンピュータに実行させることを特徴とする情報検索プログラム。
  2. 複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索プログラムであって、
    ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
    前記インデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
    をコンピュータに実行させることを特徴とする情報検索プログラム。
  3. 前記請求項1または請求項2に記載のプログラムを格納するコンピュータ読み取り可能な記録媒体。
  4. 複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
    前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
    前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
    前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
    を含むことを特徴とする情報検索方法。
  5. 複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
    前記文字列抽出手段により抽出された文字列からキーワードを生成するキーワード生成手段と、
    前記キーワード生成手段により生成されたキーワードに複数の属性を設定する属性設定手段と、
    前記属性設定手段により属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
    を備えることを特徴とする情報検索装置。
JP2004310655A 2003-10-30 2004-10-26 インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置 Active JP4783563B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004310655A JP4783563B2 (ja) 2003-10-30 2004-10-26 インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003371019 2003-10-30
JP2003371019 2003-10-30
JP2004310655A JP4783563B2 (ja) 2003-10-30 2004-10-26 インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置

Publications (2)

Publication Number Publication Date
JP2005158044A true JP2005158044A (ja) 2005-06-16
JP4783563B2 JP4783563B2 (ja) 2011-09-28

Family

ID=34741216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004310655A Active JP4783563B2 (ja) 2003-10-30 2004-10-26 インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置

Country Status (1)

Country Link
JP (1) JP4783563B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
JP2007028438A (ja) * 2005-07-20 2007-02-01 Sharp Corp 情報出力方法、情報出力システム及び画像出力装置
US7587673B2 (en) 2005-07-19 2009-09-08 Sony Corporation Information processing apparatus, method and program
JPWO2008090606A1 (ja) * 2007-01-24 2010-05-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US8346558B2 (en) 2005-07-19 2013-01-01 Sony Corporation Information processing apparatus, method and program
JP2014194608A (ja) * 2013-03-28 2014-10-09 Hitachi Systems Ltd 検索システム、検索方法、および検索プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100223A (ja) * 1983-11-07 1985-06-04 Hitachi Ltd 索引自動作成機能を有する文書作成・管理装置
JPH01191230A (ja) * 1988-01-26 1989-08-01 Ricoh Co Ltd 情報検索装置
JPH05233714A (ja) * 1992-02-21 1993-09-10 Mitsubishi Electric Corp 関連語情報作成支援方式
JPH07319892A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文字列照合装置
JPH10334091A (ja) * 1997-05-28 1998-12-18 Sharp Corp 郵便番号住所変換装置
JPH11120186A (ja) * 1997-10-09 1999-04-30 Nippon Telegr & Teleph Corp <Ntt> データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002073656A (ja) * 2000-09-01 2002-03-12 Ricoh Co Ltd 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100223A (ja) * 1983-11-07 1985-06-04 Hitachi Ltd 索引自動作成機能を有する文書作成・管理装置
JPH01191230A (ja) * 1988-01-26 1989-08-01 Ricoh Co Ltd 情報検索装置
JPH05233714A (ja) * 1992-02-21 1993-09-10 Mitsubishi Electric Corp 関連語情報作成支援方式
JPH07319892A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文字列照合装置
JPH10334091A (ja) * 1997-05-28 1998-12-18 Sharp Corp 郵便番号住所変換装置
JPH11120186A (ja) * 1997-10-09 1999-04-30 Nippon Telegr & Teleph Corp <Ntt> データベース作成方法とその装置及びそのプログラムを記録した媒体並びにデータベース検索方法とその装置及びそのプログラムを記録した媒体
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002073656A (ja) * 2000-09-01 2002-03-12 Ricoh Co Ltd 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
US7587673B2 (en) 2005-07-19 2009-09-08 Sony Corporation Information processing apparatus, method and program
US8346558B2 (en) 2005-07-19 2013-01-01 Sony Corporation Information processing apparatus, method and program
KR101274129B1 (ko) * 2005-07-19 2013-06-12 소니 주식회사 정보 처리 장치 및 방법, 및 기록 매체
JP2007028438A (ja) * 2005-07-20 2007-02-01 Sharp Corp 情報出力方法、情報出力システム及び画像出力装置
JPWO2008090606A1 (ja) * 2007-01-24 2010-05-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US9087118B2 (en) 2007-01-24 2015-07-21 Fujitsu Limited Information search apparatus, and information search method, and computer product
JP2014194608A (ja) * 2013-03-28 2014-10-09 Hitachi Systems Ltd 検索システム、検索方法、および検索プログラム

Also Published As

Publication number Publication date
JP4783563B2 (ja) 2011-09-28

Similar Documents

Publication Publication Date Title
US6602300B2 (en) Apparatus and method for retrieving data from a document database
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US6983240B2 (en) Method and apparatus for generating normalized representations of strings
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20070100890A1 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
JP2001195404A (ja) 句翻訳方法およびシステム
CN103365925A (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
US8782049B2 (en) Keyword presenting device
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
US7409381B1 (en) Index to a semi-structured database
JPH0484271A (ja) 文書内情報検索装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JPH0844771A (ja) 情報検索装置
CN101499056A (zh) 倒排参考句型语言分析方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09319767A (ja) 類義語辞書登録方法
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110711

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4783563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150