JP4390039B2

JP4390039B2 - 検索システムおよびその方法

Info

Publication number: JP4390039B2
Application number: JP2003162289A
Authority: JP
Inventors: 教彦瀬戸川; 泰文藤井; 隆博山中
Original assignee: 株式会社日立システムアンドサービス
Priority date: 2003-06-06
Filing date: 2003-06-06
Publication date: 2009-12-24
Anticipated expiration: 2023-06-06
Also published as: JP2004362427A

Description

【０００１】
【発明の技術分野】
この発明は、基本データに基づいて、これに関連するコンテンツデータの検索を行う検索システムおよびその方法に関する。
【０００２】
【従来の技術および課題】
入力されたデータに基づいて、テキストコンテンツ等を検索する検索システムが知られている。
【０００３】
このような検索システムを利用するユーザは、検索精度を高めるため、検索したい内容に関連するキーワードをいくつか入力して検索を行う。また、検索結果を絞り込むために、さらにキーワードを追加して検索を行うこともある。
【０００４】
しかしながら、入力するキーワードが適切でない場合や関連するキーワードが不明な場合においては、目的のコンテンツを発見することが困難となり、精度の高い検索作業を行うことができないという問題があった。
【０００５】
また、上記のような問題を解決するため、キーワードに類義語や同義語を付加して検索を行う方法が知られている（例えば、特許文献１。）。この方法によると、ユーザはタイトルや内容に合致するキーワードを入力しなくても、所望のコンテンツを取得することができる。
【０００６】
しかしながら、キーワードに類義語や同義語を付加したとしても、付加されたキーワードをアンド検索で検索するとヒット件数が絞り込みされ過ぎてしまい、オア検索で検索するとヒット件数が増大し過ぎてしまい、適切な検索を行うことができなかった。
【０００７】
この発明は、上記のような問題を解決するためになされたものであって、検索キーワードに基づく知識情報を用いて検索結果を判断することにより、その検索精度を高めることのできる検索システムおよびその方法を提供することを目的とする。
【０００８】
【特許文献１】
【０００９】
特開昭６２−２５７５２８号公報。
【００１０】
【課題を解決するための手段および発明の効果】
(1)(2)この発明にかかる検索システムまたはプログラムにおいては、基本データを受けて、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、基本データを受けて、キーワードを定義するために用いられる用語を当該キーワードに対応付けて知識情報として記録する知識情報データベースから、当該基本データに関する知識情報を抽出する知識情報抽出手段と、前記コンテンツデータ抽出手段が抽出したコンテンツデータと、前記知識情報抽出手段が抽出した知識情報との適合の度合いを評価する適合度評価手段とを備えたことを特徴としている。
【００１１】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を評価することができる。
【００１２】
(3)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段からの評価結果を受けて、所定の適合度より高いと評価されたコンテンツデータを出力する出力手段を備えたことを特徴としている。
【００１３】
したがって、キーワードに適合するコンテンツを適切に発見し、ユーザに提示することができる。
【００１４】
(4)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに各知識データが含まれるか否かによって適合の度あいを評価することを特徴としている。
【００１５】
したがって、ユーザが入力したキーワードに関する各知識データに基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【００１６】
(5)この発明にかかる検索システムまたはプログラムにおいては、知識情報は、知識名および当該知識名に関連するランク付けされた複数の知識データから構成されており、適合度評価手段は、前記ランク付けを考慮して、適合の度あいを評価することを特徴としている。
【００１７】
したがって、ユーザが入力したキーワードに関するランク付けされた各知識データに基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【００１８】
(6)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに含まれる知識データの出現回数によって適合の度あいを評価することを特徴としている。
【００１９】
したがって、ユーザが入力したキーワードに関する各知識データの出現回数に基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【００２０】
(7)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに含まれる知識データの出現位置によって適合の度あいを評価することを特徴としている。
【００２１】
したがって、ユーザが入力したキーワードに関する各知識データの出現位置に基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【００２２】
(8)この発明にかかる検索システムにおいては、知識情報データベースは、タイトルと内容を関連づけて記録したコンテンツデータに基づいて作成される知識情報データベースであって、対象となるコンテンツデータからタイトルデータを抽出して知識名データとし、前記コンテンツデータから特徴部分データを抽出して、当該特徴部分データに含まれる各語を特定し、特定した各語の中から、前記コンテンツデータの特徴を最もよく表した特徴部分データを主定義語データとして抽出し、前記主定義語データ以外の特徴部分データを補助定義語データとして抽出し、前記コンテンツデータの内容に基づいて前記タイトルに関連する内容を表す関連語データを抽出し、これら抽出された知識名データ、主定義語データ、補助定義語データ、および関連語データを知識情報として記録したものであることを特徴としている。
【００２３】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【００２４】
(9)この発明にかかる検索方法においては、基本データを受けて、当該基本データが含まれるコンテンツデータを抽出させ、基本データを受けて、キーワードを定義するために用いられる用語を当該キーワードに対応付けて知識情報として記録する知識情報データベースから、当該基本データに関する知識情報を抽出させ、抽出したコンテンツデータと、抽出した知識情報との適合の度合いを評価させることを特徴としている。
【００２５】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【００２６】
(10)この発明にかかる検索方法においては、知識情報データベースは、タイトルと内容を関連づけて記録したコンテンツデータに基づいて作成される知識情報データベースであって、対象となるコンテンツデータからタイトルデータを抽出して知識名データとし、前記コンテンツデータから特徴部分データを抽出して、当該特徴部分データに含まれる各語を特定し、特定した各語の中から、前記コンテンツデータの特徴を最もよく表した特徴部分データを主定義語データとして抽出し、前記主定義語データ以外の特徴部分データを補助定義語データとして抽出し、前記コンテンツデータの内容に基づいて前記タイトルに関連する内容を表す関連語データを抽出し、これら抽出された知識名データ、主定義語データ、補助定義語データ、および関連語データを知識情報として記録したものであることを特徴としている。
【００２７】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【００２８】
【発明の実施の形態】
以下、本発明における一実施形態について、図面を参照して説明する。
【００２９】
１．知識情報の作成
まず、本発明で使用する知識情報について説明する。ここで「知識情報」とは、用語や人名等のキーワードを説明するための情報を知識データとして体系的に記録したものである。このような知識情報は、例えば、用語や人名を説明するための情報を有する百科事典に基づいて作成することができる。
【００３０】
上述したような百科事典に基づいて、知識情報作成装置を用いて知識情報データの作成を行う場合の例を説明する。
【００３１】
１−１．全体構成
図１に、上記の知識情報作成装置の全体構成図を示す。この図において、百科事典コンテンツサーバ１と知識情報作成装置３は、相互に接続されておりそれぞれ通信可能である。
【００３２】
百科事典コンテンツサーバ１は、百科事典のコンテンツを記録する記録手段１１を備えるコンピュータ装置である。
【００３３】
知識情報作成装置３は、百科事典のコンテンツに関する知識情報データを作成するためのコンピュータ装置である。
【００３４】
この知識情報作成装置３は、百科事典コンテンツサーバ１の記録手段に記録されたコンテンツを入力する入力手段３１、入力手段３１が入力したコンテンツに基づいて知識名を抽出する知識名抽出手段３３、知識名毎に知識ＩＤを付与する知識ＩＤ付与手段３５、入力手段３１が入力したコンテンツに基づいて特徴部分を抽出する特徴部分抽出手段３７、特徴部分抽出手段３７が抽出した特徴部分に基づいて主定義語を抽出する主定義語抽出手段３９、特徴部分抽出手段３７が抽出した特徴部分に基づいて補助定義語を抽出する補助定義語抽出手段４１、前記コンテンツに関連する情報である関連語を抽出する関連語抽出手段４３および前記定義語および前記補助定義語をコンテンツに関する知識情報データとして記録する知識情報記録手段４５を備えている。
【００３５】
１−２．ハードウェア構成
図２に、上記知識情報作成装置３におけるハードウェア構成図を示す。このコンピュータ装置は、ディスプレイ２０１、ＣＰＵ２０３、メモリ２０５、キーボード／マウス２０７、ハードディスク２０９、ＣＤ−ＲＯＭドライブ２１１および通信回路２１５を備えている。
【００３６】
ハードディスク２０９は、入力手段３１、知識名抽出手段３３、知識ＩＤ付与手段３５、特徴部分抽出手段３７、主定義語抽出手段３９、補助定義語抽出手段４１、関連語抽出手段４３および知識情報記録手段４５を実現して知識情報作成処理を行うための知識情報作成プログラム２５０を記憶している。なお、主定義語抽出手段３９、補助定義語抽出手段４１を合わせて定義語抽出手段４０とする。
【００３７】
このプログラムは、例えば、ＣＤ−ＲＯＭ２１３からＣＤ−ＲＯＭドライブ２１１を介してハードディスク２０９にインストールされたものである。なお、フレキシブルディスクやＩＣカード等のようにＣＤ−ＲＯＭ以外の記録媒体に記録された処理プログラムからインストールするようにしてもよい。さらに、通信回線を介して他のコンピュータに記録された処理プログラムをインストールするようにしてもよい。
【００３８】
通信回路２１５は、他のコンピュータ装置との通信を行うための回路であって、ここでは百科事典コンテンツサーバ１と接続可能である。
【００３９】
なお、百科事典コンテンツサーバ１は、百科事典コンテンツを記録するコンピュータ装置であって、そのハードウェア構成は上述した知識情報作成装置と同様である。なお、百科事典コンテンツサーバ１のハードディスクには、百科事典としてのコンテンツ集合が記録されている。
【００４０】
１−３．コンテンツ
以下、百科事典コンテンツについて説明する。知識情報データの作成対象となる百科事典コンテンツは、あらゆる専門分野の言葉について、そのタイトルを示す項目とその内容を示す説明とを記録している。
【００４１】
図３に、百科事典コンテンツの例を示す。図に示すように、コンテンツ３００は、ＨＴＭＬ（HyperText Markup Language）で記述されており、１つのタイトルとこれに対応する内容を表現している。このようなＨＴＭＬで記述されたコンテンツが集合することによって、１つの百科事典３５０を構成している。
【００４２】
１−４．知識情報作成処理
上述したような百科事典３５０のコンテンツ３００に基づいて知識情報データの作成を行う場合の例を説明する。図４に、本発明を利用した知識情報作成処理におけるフローチャートを示す。
【００４３】
知識情報作成装置３において、ユーザによって知識情報作成プログラム２５０が起動されると、知識情報作成装置３のＣＰＵ２０３は、百科事典コンテンツサーバ１に百科事典としてのコンテンツ集合を要求する（ステップＳ４１１）。
【００４４】
要求を受けて、百科事典コンテンツサーバ１は、ハードディスクに記録している百科事典としてのコンテンツ集合を知識情報作成装置３に出力する（ステップＳ４０１）。
【００４５】
出力を受けて、知識情報作成装置３のＣＰＵ２０３は、コンテンツ集合を入力してハードディスク２０９に記録する（ステップＳ４１２）。
【００４６】
ＣＰＵ２０３は、百科事典としてのコンテンツ集合から１コンテンツをメモリ２０５に読み込む（ステップＳ４１３）。
【００４７】
１−４−１．知識名抽出処理
ＣＰＵ２０３は、読み込んだ１コンテンツのデータに基づいて、知識名抽出処理を行う（ステップＳ４１５）。図５に、知識名抽出処理におけるフローチャートを示す。
【００４８】
ＣＰＵ２０３は、読み込んだコンテンツのタイトルデータを検出する（ステップＳ５０１）。例えば、図３のＨＴＭＬで記述されたコンテンツにおいては、＜ＴＩＴＬＥ＞タグ３０１を検索することによりタイトルデータを検出する。
【００４９】
ＣＰＵ２０３は、検出したタイトルデータに基づいて、知識名データを決定する（ステップＳ５０３）。例えば、図３のコンテンツにおいては、＜ＴＩＴＬＥ＞タグ３０１および＜／ＴＩＴＬＥ＞タグ３０３で囲まれたテキスト情報である「大島」を知識名データとして決定する。
【００５０】
ＣＰＵ２０３は、決定した知識名データをメモリ２０５に記憶する（ステップＳ５０５）。図３のコンテンツの場合、「大島」が知識名データとして記録される。
【００５１】
１−４−２．知識ＩＤの付与
ＣＰＵ２０３は、知識名抽出処理で抽出した知識名データに対して知識ＩＤを付与する（ステップＳ４１７）。知識ＩＤは、各知識情報データを識別するものであって、例えば、連続番号を用いて作成すればよい。
【００５２】
１−４−３．特徴部分抽出処理
ＣＰＵ２０３は、読み込んだコンテンツに基づいて、特徴部分抽出処理を行う（ステップＳ４１９，図４）。図６に、特徴部分抽出処理におけるフローチャートを示す。
【００５３】
ＣＰＵ２０３は、読み込んだコンテンツの内容部分を検出する（ステップＳ６０１）。例えば、図３のＨＴＭＬで記述されたコンテンツにおいては、＜ＢＯＤＹ＞タグ３０５および＜／ＢＯＤＹ＞タグ３０７を検索することにより、これらのタグで囲まれた部分を内容部分として検出する。
【００５４】
ＣＰＵ２０３は、検出した内容部分の１行目の文を取得する（ステップＳ６０３）。図３のコンテンツ３１においては、＜ＢＯＤＹ＞タグ３０５以降であって、最初の「。」が登場するまでのテキスト部分のうち、タグ部分（＜Ｐ＞タグ、＜Ａ＞タグ等）を除いた部分を１行目の文として取得する。
【００５５】
例えば、
”<P><A HREF="izusyotou.html">伊豆諸島</A>最北部にある最大の島。”
が＜ＢＯＤＹ＞タグ３０５以降であって、最初の「。」が登場するまでのテキスト部分であり、これのタグ部分を除くと
”伊豆諸島最北部にある最大の島。”
が内容部分の１行目の文となる。
【００５６】
ＣＰＵ２０３は、取得した内容部分の１行目の文に対して形態素解析を行う（ステップＳ６０５）。図７に、取得した内容部分の１行目の文を形態素解析して特徴部分を抽出する場合の例を示す。
【００５７】
図７において、”伊豆諸島最北部にある最大の島。”７０１は、抽出した内容部分の１行目の文である。ＣＰＵ２０３は、この文を形態素解析し、”｜伊豆諸島｜最北部｜に｜ある｜最大｜の｜島｜。”７０３に示すように、最小の言語単位である形態素に分割する。図７ａに、このときメモリに格納される処理結果を示す。図７ａにおいては、分割された形態素７０７毎に品詞７０９が記録されている。
【００５８】
ＣＰＵ２０３は、形態素に分割した文から名詞のみを抽出し、これを特徴部分データとして決定する（ステップＳ６０７）。すなわち、ＣＰＵ２０３は、図７ａに示す品詞が名詞である形態素のみを抽出し、それぞれの名詞を特徴部分データとして決定する。図７の７０５は、このとき特徴部分データとして抽出される名詞である。
【００５９】
ＣＰＵ２０３は、決定した特徴部分をメモリ２０５に記憶する（ステップＳ６０９）。図７の場合、「伊豆諸島」，「最北部」，「最大」，「島」がそれぞれ特徴部分データとして記憶される。
【００６０】
１−４−４．主定義語・補助定義語抽出処理
ＣＰＵ２０３は、読み込んだコンテンツに基づいて、主定義語・補助定義語抽処理を行う（ステップＳ４２１，図４）。図８に、主定義語・補助定義語抽出処理におけるフローチャートを示す。
【００６１】
ＣＰＵ２０３は、メモリ２０５に記憶した特徴部分データを読み込む（ステップＳ８０１）。例えば、図７の７０５に示した特徴部分データである「伊豆諸島」，「最北部」，「最大」，「島」が読み込まれる。
【００６２】
ＣＰＵ２０３は、読み込んだ特徴部分データのうち末尾の特徴部分データを主定義語データとして決定する（ステップＳ８０３）。図７の例においては、「島」が末尾の特徴部分であるので、これを主定義語データとして決定する。ＣＰＵ２０３は、決定した主定義語である「島」をメモリ２０５に記憶する（ステップＳ８０５）。
【００６３】
ＣＰＵ２０３は、読み込んだ特徴部分データのうち、主定義語データとして決定した特徴部分データを除く他の特徴部分データを補助定義語データに決定する（ステップＳ８０７）。図７の例においては、「伊豆諸島」，「最北部」，「最大」が主定義語データとして決定した特徴部分データを除く他の特徴部分データであるので、これを補助定義語データとして決定する。ＣＰＵ２０３は、決定した補助定義語データである「伊豆諸島」，「最北部」，「最大」をメモリ２０５に記憶する（ステップＳ８０９）。
【００６４】
１−４−５．関連語抽出処理
ＣＰＵ２０３は、読み込んだコンテンツに基づいて、関連語抽処理を行う（ステップＳ４２３，図４）。図９に、関連語抽出処理におけるフローチャートを示す。
【００６５】
ＣＰＵ２０３は、読み込んだコンテンツの内容部分の中からリンク情報を検出する（ステップＳ９０１）。図３のＨＴＭＬで記述されたコンテンツにおいては、＜Ａ〜＞タグ３０９および＜／Ａ＞タグ３１１を検索することにより、これらのタグで囲まれた部分をリンク情報として検出する。
【００６６】
例えば、
”＜ＡＨＲＥＦ＝”ｉｚｕｓｙｏｔｏｕ．ｈｔｍｌ”＞伊豆諸島＜／Ａ＞”
から検出されるリンク情報は「伊豆諸島」であり、
”＜ＡＨＲＥＦ＝”ｍｉｈａｒａｙａｍａ．ｈｔｍｌ”＞三原山＜／Ａ＞”
から検出されるリンク情報は、「三原山」である。
【００６７】
ＣＰＵ２０３は、検出したリンク情報を関連語データとして決定し（ステップＳ９０３）、これらをメモリ２０５に記憶する（ステップＳ９０５）。
【００６８】
１−４−６．知識情報データの記録
ＣＰＵ２０３は、上記の処理においてメモリ２０５に記憶した知識名データ、知識ＩＤ、主定義語データ、補助定義語データおよび関連語データを知識情報データとして知識情報データベース４０に記録する（ステップＳ４２５）。
【００６９】
図１０に、知識情報データベース４０の例を示す。このデータベースは、知識名１００１、知識ＩＤ１００３、主定義語１００５、補助定義語１００７および関連語１００９がそれぞれ記録される。上記の例の場合、知識名「大島」、知識ＩＤ「００１」、主定義語「島」、補助定義語「伊豆諸島，最北部，最大」および関連語「伊豆諸島，三原山」が記録される。
【００７０】
１−４−７．処理の終了
読み込んだコンテンツに関する知識情報データを記録すると、ＣＰＵ２０３は、知識情報データを作成していない他のコンテンツがあるか否かを判断し、コンテンツがあれば（ステップＳ４２７，ＹＥＳ）、ステップＳ４１３に戻って新たなコンテンツを読み込み、上記と同様の処理を繰り返すことにより知識情報データを作成する。なお、すべてのコンテンツについて知識情報データを作成したと判断すれば（ステップＳ４２７，ＮＯ）、当該処理を終了する。
【００７１】
１−４−８．まとめ
このように、百科事典であるコンテンツ集合を入力し、それぞれのコンテンツの内容に基づいて、知識名データ、知識ＩＤ、主定義語データ、補助定義語データおよび関連語データを抽出してコンテンツの知識情報データとすることにより、百科事典全体の知識情報データを容易に作成することができる。
【００７２】
上記においては、コンテンツを記録するコンテンツサーバ１と、知識情報作成処理を行う知識情報作成装置３とに分けて説明しているが、知識情報作成装置３にコンテンツを記録する記録手段を設け、知識情報作成装置３のみで処理を行うように構成してもよい。また、コンテンツサーバ１に知識情報作成プログラム２５０をインストールして、コンテンツサーバ１において知識情報作成処理を行うように構成してもよい。
【００７３】
上記においては、百科事典を構成するコンテンツを例として説明しているが、これに限定されることなく、タイトルおよびその内容を有するコンテンツであれば適用して、知識情報データを作成することができる。
【００７４】
上記においては、１行目の文を形態素解析した結果に基づいて特徴部分を抽出するように構成しているが、他の文に基づいて特徴部分を抽出するようにしてもよい。
【００７５】
例えば、任意の行の文や最も多く語を含む文に基づいて特徴部分データを抽出するように構成してもよい。また、例えば、タイトルが文の先頭にある文に基づいて特徴部分データを抽出するようにしてもよい。
【００７６】
さらに、例えば、タイトルを構成する語がその文の末尾近傍に存在する文に基づいて特徴部分データを抽出するようにしてもよい。なお、末尾近傍とは、当該文における末尾の語のみならず、例えば、当該文を構成する文字列において下位１０％以下に存在する語が存在する位置をいう。
【００７７】
上記においては、形態素解析の結果から名詞のみを特徴部分の抽出対象としたが、動詞や形容詞等のような他の品詞を抽出対象としてもよい。
【００７８】
上記においては、決定した文の特徴部分データの末尾の語を主定義語データを抽出するようにしたが、当該文における知識名データとの係り受け関係に基づいて抽出するようにしてもよい。
【００７９】
例えば、「大島は、伊豆諸島最北部にある最大の島である。」という文の場合、「大島は」と「島である」は係り受け関係にあり、「大島は」は係り文節であり、「島である」は受け文節である。したがって、知識名データが「大島」である場合において、この「大島」を含む係り文節と係り受け関係にある文節である「島である」から抽出される語である「島」を主定義語として抽出することができる。
【００８０】
上記においては、ＨＴＭＬで記述されたコンテンツを用いて説明したがコンテンツの記述形式はこれに限定されることはない。例えば、ＳＧＭＬやＸＭＬなどで記述された文書やその他の構造化文書であってもよい。また、タイトルおよびその内容がコンピュータによって認識可能であれば、通常のテキストのみで記述された文書であってもよい。例えば、タイトルと内容とを別々の行に分けて記述された文書、所定の位置にタイトルと内容が記述された文書またはＣＳＶファイルのように記号で区切られた文書などがこれに該当する。
【００８１】
２．検索システム
以下、本発明における検索システムについて説明する。この検索システムは、上述した知識情報作成装置において作成した知識情報を用いて検索処理を行うものである。
【００８２】
２−１．機能ブロック図
図１１に、本発明にかかる検索システムの全体構成図を示す。この検索システムは、入力手段１１０１、知識情報抽出手段１１０３、コンテンツデータ抽出手段１１０５、適合度判定手段１１０７、および出力手段１１０９を備えている。
【００８３】
入力手段１１０１には、ユーザの操作によって、基本データである検索キーワードが当該検索システムに入力される。知識情報抽出手段１１０３は、検索キーワードとして入力された基本データに関する知識情報を知識情報データベース１１０４から抽出する。コンテンツデータ抽出手段１１０５は、入力された検索キーワードが含まれるコンテンツデータをコンテンツデータベース１１０６から抽出する。
【００８４】
適合度評価手段１１０７は、コンテンツデータ抽出手段１１０５によって抽出されたコンテンツデータと知識情報検索手段１１０３によって抽出された知識情報との適合の度合いを評価する。出力手段１１０９は、適合度評価手段１１０７からの評価結果を受けてユーザ所望のコンテンツデータを出力する。
【００８５】
２−２．ハードウェア構成
図１２に、上記検索システムを構成するコンピュータ装置を用いて実現する場合におけるハードウェア構成図を示す。このコンピュータ装置は、ディスプレイ１２０１、ＣＰＵ１２０３、メモリ１２０５、キーボード／マウス１２０７、ハードディスク１２０９、およびＣＤ−ＲＯＭドライブ１２１１を備えている。
【００８６】
ハードディスク１２０９は、入力手段１１０１における画面インターフェイス、コンテンツデータ抽出手段１１０５、知識情報抽出手段１１０３、適合度評価手段１１０７、および出力手段１１０９を実現して本発明にかかる検索処理を行うための検索プログラム２５０を記憶している。
【００８７】
この検索プログラムは、例えば、ＣＤ−ＲＯＭ１２１３からＣＤ−ＲＯＭドライブ１２１１を介してハードディスク１２０９にインストールされたものである。なお、フレキシブルディスクやＩＣカード等のようにＣＤ−ＲＯＭ以外の記録媒体に記録された処理プログラムからインストールするようにしてもよい。さらに、通信回線を介して他のコンピュータに記録された処理プログラムをインストールするようにしてもよい。通信回路１２１５は、他のコンピュータ装置との通信を行うための回路である。
【００８８】
２−３．フローチャート
次に、ハードディスク１２０９に記憶されている検索プログラムに基づく検索処理について、図１３〜図１６を用いて説明する。
【００８９】
以下では、百科事典コンテンツの「大島」の項目を参照している場合において、この「大島」を基本データとして知識情報を検索し、さらに、これに関連する別のコンテンツである年鑑記事コンテンツをコンテンツデータとして検索する場合について説明する。
【００９０】
ここで「年鑑記事コンテンツ」とは、複数分野における出来事や統計などを年度ごとに収録または解説した刊行物を、電子データとして記録したものである。
【００９１】
図１３に、ユーザが百科事典コンテンツを参照している画面１３０を示す。この画面１３０においては、百科事典の項目欄１３１に「大島」が表示されており、その説明欄１３３に「大島」を説明する文が表示されている。また、項目欄１３１の右には、「大島」を知識名とする知識情報データベース４０（図１０）の知識ＩＤが表示されている。
【００９２】
画面１３０の右下には、「年鑑記事検索」ボタン１３５が表示されており、ユーザはこのボタンを押下することにより、項目である「大島」に関連する年鑑記事コンテンツを検索することができるようになっている。
【００９３】
図１４に、ユーザが年鑑記事コンテンツを検索する場合における検索システムのフローチャートを示す。
【００９４】
画面１３０において、ユーザが「年鑑記事検索」ボタン１３５を押下すると（ステップＳ１４０１，ＹＥＳ）検索システムのＣＰＵ１２０３は、百科事典の項目と、これに対応する知識ＩＤを読み込む（ステップＳ１４０３）。例えば、画面１３０の例においては、項目「大島」と、これに対応する知識ＩＤ「００１」が読み込まれる。
【００９５】
ＣＰＵ１２０３は、読み込んだ知識ＩＤに基づいて知識情報データベース４０を検索し、当該知識ＩＤにかかる知識情報を抽出する（ステップＳ１４０５）。なお、ステップＳ１４０５において、知識情報データベース４０から抽出されたデータは知識データとしてメモリ１２０５上に記憶される。
【００９６】
ＣＰＵ１２０３は、読み込んだ百科事典の項目に基づいて年鑑記事コンテンツデータベース１４３を検索し、当該項目を含むコンテンツをすべて抽出する（ステップＳ１４０７）。なお、ステップＳ１４０７において、年鑑記事コンテンツから抽出されたデータは検索結果１４５としてメモリ１２０５上に記憶される。
【００９７】
検索結果１４５において、ヒット件数が０件でなければ（ステップＳ１４０９，ＹＥＳ）、ＣＰＵ１２０３は検索結果と知識情報との適合の度合いを評価する処理（ステップＳ１４１１〜１４１６）を行う。なお、ヒット件数が０件であれば（ステップＳ１４０９，ＮＯ）、検索結果が０件である旨を表示して（ステップＳ１４１７）、処理を終了する。
【００９８】
図１５は、検索プログラムにおいて検索結果への点数加算処理を行う場合に、メモリ１２０５上に記憶されるデータの例を示す図である。この図においては、検索結果１５０１、主定義語の点数１５０３、補助定義語の点数１５０５、関連語の点数１５０７、および合計１５０５の各データが表形式で管理される。
【００９９】
ＣＰＵ１２０３は、ステップＳ１４１１において、知識情報の主定義語を含む検索結果に点数を加算する処理を行う（ステップＳ１４１１）。なお、ステップＳ１４１１の加算処理においては、主定義語の個数にかかわらず、主定義語が１つでも含まれていれば所定の点数（５点）を加算するようにしている。
【０１００】
例えば、図１０において示したように知識名「大島」の主定義語は「島」である。ＣＰＵ１２０３は、メモリ１２０５に記憶した検索結果である年鑑記事のコンテンツデータ１５Ａ〜１５Ｄの中から主定義語「島」を含むコンテンツデータを検索し、該当するコンテンツデータの主定義語の点数１５０３に所定の点数（５点）を加算する。
【０１０１】
図１５においては、コンテンツデータ１５Ａ「奄美大島では、自然破壊が深刻…島の南側では…」およびコンテンツデータ１５Ｄ「伊豆大島で震度２の揺れ、島の中心部から三原山にかけて…被害が最大である。」に主定義語「島」が含まれているため、これらのコンテンツデータに対して、点数（５点）を加算している。
【０１０２】
ＣＰＵ１２０３は、ステップＳ１４１３において、知識情報の補助定義語を含む検索結果に点数を加算する処理を行う（ステップＳ１４１３）。なお、ステップＳ１４１３の加算処理においては、含まれる補助定義語の個数にかかわらず、補助定義語が１つでも含まれていれば所定の点数（３点）を加算するようにしている。
【０１０３】
例えば、図１０において示したように知識名「大島」の補助定義語は「伊豆諸島、最北部、最大」である。ＣＰＵ１２０３は、メモリ１２０５に記憶した検索結果である年鑑記事のコンテンツデータ１５Ａ〜１５Ｄの中から補助定義語「伊豆諸島」、「最北部」または「最大」を含むコンテンツデータを検索し、該当するコンテンツデータの補助定義語の点数１５０５に所定の点数（２点）を加算する。
【０１０４】
図１５においては、コンテンツデータ１５Ｃ「映画監督の大島渚さんが、伊豆諸島を舞台
に撮影…三原山などの…」およびコンテンツデータ１５Ｄ「伊豆大島で震度２の揺れ、島の中心部から三原山にかけて…被害が最大である。」に補助定義語「伊豆諸島」が含まれているため、これらのコンテンツデータに対して、点数（２点）を加算している。
【０１０５】
ＣＰＵ１２０３は、ステップＳ１４１７において、知識情報の関連語を含む検索結果に点数を加算する処理を行う（ステップＳ１４１５）。なお、ステップＳ１４１５の加算処理においては、含まれる関連語の個数にかかわらず、関連語が１つでも含まれていれば所定の点数（１点）を加算するようにしている。
【０１０６】
例えば、図１０において示したように知識名「大島」の関連語は「伊豆諸島、三原山」である。ＣＰＵ１２０３は、メモリ１２０５に記憶した検索結果である年鑑記事のコンテンツデータ１５Ａ〜１５Ｄの中から補助定義語「伊豆諸島」または「三原山」を含むコンテンツデータを検索し、該当するコンテンツデータの関連語の点数１５０７に所定の点数（１点）を加算する。
【０１０７】
図１５においては、コンテンツデータ１５Ｃ「映画監督の大島渚さんが、伊豆諸島を舞台に撮影…三原山などの…」およびコンテンツデータ１５Ｄ「伊豆大島で震度２の揺れ、島の中心部から三原山にかけて…被害が最大である。」に関連語語「三原山」が含まれているため、これらのコンテンツデータに対して、点数（１点）を加算している。
【０１０８】
次に、ＣＰＵ１２０３は、上記において加算した点数をコンテンツデータ毎に合計する処理を行う（ステップＳ１４１６）。図１５においては、合計１５０９にコンテンツデータ毎の合計点数が記憶される。
【０１０９】
ＣＰＵ１２０３は、上述した検索結果と知識情報との適合の度合いを評価する処理（ステップＳ１４１１〜１４１５）を終えると、その処理結果を、年鑑記事検索の検索結果としてディスプレイ１２０１に表示する（ステップＳ１４１７）。
【０１１０】
図１６に、この場合にディスプレイ１２０１に表示される画面の例を示す。この画面では、図１５において適合の度合いを評価した結果である合計点数に基づいて、検索結果を並び替えて表示している。
【０１１１】
例えば、点数の一番高かった１５Ｄの年鑑記事のコンテンツデータを先頭に表示し、２番目に点数の高かった１５Ａの年鑑記事のコンテンツデータをその次に表示している。なお、１５Ｂの年鑑記事のコンテンツデータのように所定点数（１点）に満たない場合には表示しないようにしている。
【０１１２】
２−４．まとめ
このように、基本データである項目「大島」に基づく知識情報を用いて、年鑑記事コンテンツデータの検索結果を評価することにより、検索の精度を高めることができる。これにより、複数のキーワードを入力しなくても最適なコンテンツを探し当てることができる。
【０１１３】
３．その他の実施形態
上記実施形態においては、定義語、補助定義語または関連語などのランク付けされた知識データが年鑑記事コンテンツに含まれるか否かによって、適合するか否かの評価を行っているが、これらの知識データの出現回数に応じて点数を加算するように構成してもよい。
【０１１４】
例えば、年鑑記事コンテンツ内に同一の知識データが２回出願した場合には点数を２倍にして加算して評価するようにしてもよい。
【０１１５】
また、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否かに加えて、これらの知識データの出現回数に応じて点数を加算するように構成してもよい。
【０１１６】
上記実施形態においては、定義語、補助定義語または関連語のランク付けされた知識データが年鑑記事コンテンツに含まれるか否かによって、適合するか否かの評価を行っているが、さらに、これらの知識データの出現位置を考慮して評価を行うように構成してもよい。
【０１１７】
例えば、年鑑記事コンテンツの前半部分に知識データが位置している場合には、さらに点数を加算して評価するようにしてもよい。さらに、年鑑記事コンテンツの後半部分に知識データが位置している場合には、点数を減算して評価するようにしてもよい。
【０１１８】
例えば、年鑑記事コンテンツを構成する文のうち、特定の文に知識データが含まれているか否かを考慮して点数を加算するようにしてもよい。すなわち、最初の一文に知識データが含まれている場合には点数を加算するようにしてもよい。さらに、年鑑記事コンテンツの最後の文に知識データが含まれている場合には、点数を減算して評価するようにしてもよい。
【０１１９】
また、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否かに加えて、これらの知識データの出現位置に応じて点数を加算するように構成してもよい。
【０１２０】
さらに、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否か、およびこれらの知識データの出現回数に応じて点数を加算する構成に加えて、これらの知識データの出現位置に応じて点数を加算するように構成してもよい。
【０１２１】
上記実施形態においては、百科事典を構成するコンテンツから年鑑記事コンテンツを検索する場合の例を説明しているが、これに限定されることなく、インターネット上のコンテンツを対象に検索処理を行うように構成してもよい。
【０１２２】
図１７に、この場合のシステム構成図の例を示す。この図においては、コンテンツデータ抽出手段１１０５は、インタネット１７を介して接続可能なサーバ１７０１からコンテンツを抽出するようにしている。
【０１２３】
このように、インターネットを介して接続されるサーバ上のコンテンツを利用することにより、検索の元となるコンテンツを当該システム内の年鑑記事コンテンツに限定することなく本発明を実施することができる。
【０１２４】
上記実施形態においては、ユーザが参照している百科事典コンテンツに基づく知識情報を用いて検索処理を行っているが、受け付けた任意のキーワードに基づく知識情報を用いて検索処理を行うように構成してもよい。
【０１２５】
例えば、本発明にかかる検索システムをインターネット上に公開して、ユーザのクライアント１７０３から任意の検索キーワードを受け付け、当該キーワードを本発明の検索システムに入力し、その検索結果をクライアント１７０３に送信することにより、インターネット上の検索エンジンとしての利用も可能である。
【０１２６】
上記実施形態においては、知識情報作成装置３を用いる方法によって知識情報データベース４０を作成された知識情報を利用して検索システムを構成しているが、この方法に限定されることなく、人手による方法やその他の方法で作成された知識情報を利用して構成するようにしてもよい。
【０１２７】
上記実施形態においては、図１に示す機能を実現する為に、ＣＰＵを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティングシステム（ＯＳ）にさせるようにしてもよい。
【図面の簡単な説明】
【図１】この発明の一実施形態における知識情報作成装置の全体構成の例を示す図である。
【図２】この発明の一実施形態における知識情報作成装置のハードウェア構成図である。
【図３】この発明の一実施形態におけるコンテンツの例を示す図である。
【図４】この発明の一実施形態における知識情報作成装置のフローチャートの例を示す図である。
【図５】この発明の一実施形態における知識名抽出処理のフローチャートの例を示す図である。
【図６】この発明の一実施形態における特徴部分抽出処理のフローチャートの例を示す図である。
【図７】この発明の一実施形態における文から特徴部分データを抽出する場合の例を示す図である。
【図７ａ】この発明の一実施形態における文を形態素解析した結果の例を示す図である。
【図８】この発明の一実施形態における主定義語・補助定義語抽出処理のフローチャートの例を示す図である。
【図９】この発明の一実施形態における関連語抽出処理のフローチャートの例を示す図である。
【図１０】この発明の一実施形態における知識情報データベースの例を示す図である。
【図１１】この発明の一実施形態における検索システムの全体構成の例を示す図である。
【図１２】この発明の一実施形態における検索システムのハードウェア構成図である。
【図１３】この発明の一実施形態における百科事典の参照画面の例を示す図である。
【図１４】この発明の一実施形態における検索システムのフローチャートの例を示す図である。
【図１５】この発明の一実施形態における検索結果への点数加算の例を示す図である。
【図１６】この発明の一実施形態における検索結果の表示の例を示す図である。
【図１７】この発明の一実施形態におけるインターネットを用いた検索システムの全体構成の例を示す図である。
【符号の説明】
１１００・・・検索システム
１１０１・・・入力手段
１１０３・・・知識情報抽出手段
１１０４・・・知識情報データベース
１１０５・・・コンテンツデータ抽出手段
１１０６・・・コンテンツデータベース
１１０７・・・適合度評価手段
１１０９・・・出力手段

Claims

基本データに基づいて、関連するコンテンツデータの検索を行う検索システムであって、
基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、
基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出す知識情報抽出手段と、
コンテンツデータ抽出手段によって抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する適合度評価手段とを備え、
前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
を特徴とする検索システム。
基本データに基づいて、関連するコンテンツデータの検索を行う検索システムをコンピュータを用いて実現するためのプログラムであって、
コンピュータを
基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、
基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出す知識情報抽出手段と、
コンテンツデータ抽出手段によって抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する適合度評価手段として機能させるためのプログラムであって、
前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
を特徴とするプログラム。
請求項１または２の検索システムまたはプログラムにおいて、
前記知識情報用のコンテンツデータに含まれるリンク情報を関連語データとして抽出して知識情報とし、
前記適合度評価手段は、各コンテンツデータにおいて前記関連語データが含まれるか否かも判断し、当該関連語データのウエイトを補助定義語データのウエイトより小さくして、各コンテンツデータごとに適合度を評価することを特徴とするもの。
請求項３の検索システムまたはプログラムにおいて、
前記適合度評価手段は、抽出されたコンテンツデータに含まれる主定義語データ、補助定義語データの出現回数によって前記適合度を評価すること
を特徴とするもの。
請求項３の検索システムまたはプログラムにおいて、
前記適合度評価手段は、抽出されたコンテンツデータに含まれる主定義語データ、補助定義語データの出現位置によって前記適合度を評価すること
を特徴とするもの。
コンピュータによって、基本データに基づいて、関連するコンテンツデータの検索を行う検索方法であって、前記コンピュータは、
基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出し、
基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出し、
前記抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する方法であって、
前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
を特徴とする検索方法。