JP4390039B2 - 検索システムおよびその方法 - Google Patents

検索システムおよびその方法 Download PDF

Info

Publication number
JP4390039B2
JP4390039B2 JP2003162289A JP2003162289A JP4390039B2 JP 4390039 B2 JP4390039 B2 JP 4390039B2 JP 2003162289 A JP2003162289 A JP 2003162289A JP 2003162289 A JP2003162289 A JP 2003162289A JP 4390039 B2 JP4390039 B2 JP 4390039B2
Authority
JP
Japan
Prior art keywords
data
content
knowledge information
knowledge
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003162289A
Other languages
English (en)
Other versions
JP2004362427A (ja
Inventor
教彦 瀬戸川
泰文 藤井
隆博 山中
Original Assignee
株式会社 日立システムアンドサービス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 日立システムアンドサービス filed Critical 株式会社 日立システムアンドサービス
Priority to JP2003162289A priority Critical patent/JP4390039B2/ja
Publication of JP2004362427A publication Critical patent/JP2004362427A/ja
Application granted granted Critical
Publication of JP4390039B2 publication Critical patent/JP4390039B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の技術分野】
この発明は、基本データに基づいて、これに関連するコンテンツデータの検索を行う検索システムおよびその方法に関する。
【0002】
【従来の技術および課題】
入力されたデータに基づいて、テキストコンテンツ等を検索する検索システムが知られている。
【0003】
このような検索システムを利用するユーザは、検索精度を高めるため、検索したい内容に関連するキーワードをいくつか入力して検索を行う。また、検索結果を絞り込むために、さらにキーワードを追加して検索を行うこともある。
【0004】
しかしながら、入力するキーワードが適切でない場合や関連するキーワードが不明な場合においては、目的のコンテンツを発見することが困難となり、精度の高い検索作業を行うことができないという問題があった。
【0005】
また、上記のような問題を解決するため、キーワードに類義語や同義語を付加して検索を行う方法が知られている(例えば、特許文献1。)。この方法によると、ユーザはタイトルや内容に合致するキーワードを入力しなくても、所望のコンテンツを取得することができる。
【0006】
しかしながら、キーワードに類義語や同義語を付加したとしても、付加されたキーワードをアンド検索で検索するとヒット件数が絞り込みされ過ぎてしまい、オア検索で検索するとヒット件数が増大し過ぎてしまい、適切な検索を行うことができなかった。
【0007】
この発明は、上記のような問題を解決するためになされたものであって、検索キーワードに基づく知識情報を用いて検索結果を判断することにより、その検索精度を高めることのできる検索システムおよびその方法を提供することを目的とする。
【0008】
【特許文献1】
【0009】
特開昭62−257528号公報。
【0010】
【課題を解決するための手段および発明の効果】
(1)(2)この発明にかかる検索システムまたはプログラムにおいては、基本データを受けて、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、基本データを受けて、キーワードを定義するために用いられる用語を当該キーワードに対応付けて知識情報として記録する知識情報データベースから、当該基本データに関する知識情報を抽出する知識情報抽出手段と、前記コンテンツデータ抽出手段が抽出したコンテンツデータと、前記知識情報抽出手段が抽出した知識情報との適合の度合いを評価する適合度評価手段とを備えたことを特徴としている。
【0011】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を評価することができる。
【0012】
(3)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段からの評価結果を受けて、所定の適合度より高いと評価されたコンテンツデータを出力する出力手段を備えたことを特徴としている。
【0013】
したがって、キーワードに適合するコンテンツを適切に発見し、ユーザに提示することができる。
【0014】
(4)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに各知識データが含まれるか否かによって適合の度あいを評価することを特徴としている。
【0015】
したがって、ユーザが入力したキーワードに関する各知識データに基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【0016】
(5)この発明にかかる検索システムまたはプログラムにおいては、知識情報は、知識名および当該知識名に関連するランク付けされた複数の知識データから構成されており、適合度評価手段は、前記ランク付けを考慮して、適合の度あいを評価することを特徴としている。
【0017】
したがって、ユーザが入力したキーワードに関するランク付けされた各知識データに基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【0018】
(6)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに含まれる知識データの出現回数によって適合の度あいを評価することを特徴としている。
【0019】
したがって、ユーザが入力したキーワードに関する各知識データの出現回数に基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【0020】
(7)この発明にかかる検索システムまたはプログラムにおいては、適合度評価手段は、抽出されたコンテンツデータに含まれる知識データの出現位置によって適合の度あいを評価することを特徴としている。
【0021】
したがって、ユーザが入力したキーワードに関する各知識データの出現位置に基づいて、当該キーワードに適合するコンテンツを見つけることができる。
【0022】
(8)この発明にかかる検索システムにおいては、知識情報データベースは、タイトルと内容を関連づけて記録したコンテンツデータに基づいて作成される知識情報データベースであって、対象となるコンテンツデータからタイトルデータを抽出して知識名データとし、前記コンテンツデータから特徴部分データを抽出して、当該特徴部分データに含まれる各語を特定し、特定した各語の中から、前記コンテンツデータの特徴を最もよく表した特徴部分データを主定義語データとして抽出し、前記主定義語データ以外の特徴部分データを補助定義語データとして抽出し、前記コンテンツデータの内容に基づいて前記タイトルに関連する内容を表す関連語データを抽出し、これら抽出された知識名データ、主定義語データ、補助定義語データ、および関連語データを知識情報として記録したものであることを特徴としている。
【0023】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【0024】
(9)この発明にかかる検索方法においては、基本データを受けて、当該基本データが含まれるコンテンツデータを抽出させ、基本データを受けて、キーワードを定義するために用いられる用語を当該キーワードに対応付けて知識情報として記録する知識情報データベースから、当該基本データに関する知識情報を抽出させ、抽出したコンテンツデータと、抽出した知識情報との適合の度合いを評価させることを特徴としている。
【0025】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【0026】
(10)この発明にかかる検索方法においては、知識情報データベースは、タイトルと内容を関連づけて記録したコンテンツデータに基づいて作成される知識情報データベースであって、対象となるコンテンツデータからタイトルデータを抽出して知識名データとし、前記コンテンツデータから特徴部分データを抽出して、当該特徴部分データに含まれる各語を特定し、特定した各語の中から、前記コンテンツデータの特徴を最もよく表した特徴部分データを主定義語データとして抽出し、前記主定義語データ以外の特徴部分データを補助定義語データとして抽出し、前記コンテンツデータの内容に基づいて前記タイトルに関連する内容を表す関連語データを抽出し、これら抽出された知識名データ、主定義語データ、補助定義語データ、および関連語データを知識情報として記録したものであることを特徴としている。
【0027】
したがって、ユーザが入力したキーワードを有するコンテンツが複数存在する場合であっても、当該キーワードが含まれるコンテンツの適合度を知識情報データベースに基づいて適切に評価することができる。
【0028】
【発明の実施の形態】
以下、本発明における一実施形態について、図面を参照して説明する。
【0029】
1.知識情報の作成
まず、本発明で使用する知識情報について説明する。ここで「知識情報」とは、用語や人名等のキーワードを説明するための情報を知識データとして体系的に記録したものである。このような知識情報は、例えば、用語や人名を説明するための情報を有する百科事典に基づいて作成することができる。
【0030】
上述したような百科事典に基づいて、知識情報作成装置を用いて知識情報データの作成を行う場合の例を説明する。
【0031】
1−1.全体構成
図1に、上記の知識情報作成装置の全体構成図を示す。この図において、百科事典コンテンツサーバ1と知識情報作成装置3は、相互に接続されておりそれぞれ通信可能である。
【0032】
百科事典コンテンツサーバ1は、百科事典のコンテンツを記録する記録手段11を備えるコンピュータ装置である。
【0033】
知識情報作成装置3は、百科事典のコンテンツに関する知識情報データを作成するためのコンピュータ装置である。
【0034】
この知識情報作成装置3は、百科事典コンテンツサーバ1の記録手段に記録されたコンテンツを入力する入力手段31、入力手段31が入力したコンテンツに基づいて知識名を抽出する知識名抽出手段33、知識名毎に知識IDを付与する知識ID付与手段35、入力手段31が入力したコンテンツに基づいて特徴部分を抽出する特徴部分抽出手段37、特徴部分抽出手段37が抽出した特徴部分に基づいて主定義語を抽出する主定義語抽出手段39、特徴部分抽出手段37が抽出した特徴部分に基づいて補助定義語を抽出する補助定義語抽出手段41、前記コンテンツに関連する情報である関連語を抽出する関連語抽出手段43および前記定義語および前記補助定義語をコンテンツに関する知識情報データとして記録する知識情報記録手段45を備えている。
【0035】
1−2.ハードウェア構成
図2に、上記知識情報作成装置3におけるハードウェア構成図を示す。このコンピュータ装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
【0036】
ハードディスク209は、入力手段31、知識名抽出手段33、知識ID付与手段35、特徴部分抽出手段37、主定義語抽出手段39、補助定義語抽出手段41、関連語抽出手段43および知識情報記録手段45を実現して知識情報作成処理を行うための知識情報作成プログラム250を記憶している。なお、主定義語抽出手段39、補助定義語抽出手段41を合わせて定義語抽出手段40とする。
【0037】
このプログラムは、例えば、CD−ROM213からCD−ROMドライブ211を介してハードディスク209にインストールされたものである。なお、フレキシブルディスクやICカード等のようにCD−ROM以外の記録媒体に記録された処理プログラムからインストールするようにしてもよい。さらに、通信回線を介して他のコンピュータに記録された処理プログラムをインストールするようにしてもよい。
【0038】
通信回路215は、他のコンピュータ装置との通信を行うための回路であって、ここでは百科事典コンテンツサーバ1と接続可能である。
【0039】
なお、百科事典コンテンツサーバ1は、百科事典コンテンツを記録するコンピュータ装置であって、そのハードウェア構成は上述した知識情報作成装置と同様である。なお、百科事典コンテンツサーバ1のハードディスクには、百科事典としてのコンテンツ集合が記録されている。
【0040】
1−3.コンテンツ
以下、百科事典コンテンツについて説明する。知識情報データの作成対象となる百科事典コンテンツは、あらゆる専門分野の言葉について、そのタイトルを示す項目とその内容を示す説明とを記録している。
【0041】
図3に、百科事典コンテンツの例を示す。図に示すように、コンテンツ300は、HTML(HyperText Markup Language)で記述されており、1つのタイトルとこれに対応する内容を表現している。このようなHTMLで記述されたコンテンツが集合することによって、1つの百科事典350を構成している。
【0042】
1−4.知識情報作成処理
上述したような百科事典350のコンテンツ300に基づいて知識情報データの作成を行う場合の例を説明する。図4に、本発明を利用した知識情報作成処理におけるフローチャートを示す。
【0043】
知識情報作成装置3において、ユーザによって知識情報作成プログラム250が起動されると、知識情報作成装置3のCPU203は、百科事典コンテンツサーバ1に百科事典としてのコンテンツ集合を要求する(ステップS411)。
【0044】
要求を受けて、百科事典コンテンツサーバ1は、ハードディスクに記録している百科事典としてのコンテンツ集合を知識情報作成装置3に出力する(ステップS401)。
【0045】
出力を受けて、知識情報作成装置3のCPU203は、コンテンツ集合を入力してハードディスク209に記録する(ステップS412)。
【0046】
CPU203は、百科事典としてのコンテンツ集合から1コンテンツをメモリ205に読み込む(ステップS413)。
【0047】
1−4−1.知識名抽出処理
CPU203は、読み込んだ1コンテンツのデータに基づいて、知識名抽出処理を行う(ステップS415)。図5に、知識名抽出処理におけるフローチャートを示す。
【0048】
CPU203は、読み込んだコンテンツのタイトルデータを検出する(ステップS501)。例えば、図3のHTMLで記述されたコンテンツにおいては、<TITLE>タグ301を検索することによりタイトルデータを検出する。
【0049】
CPU203は、検出したタイトルデータに基づいて、知識名データを決定する(ステップS503)。例えば、図3のコンテンツにおいては、<TITLE>タグ301および</TITLE>タグ303で囲まれたテキスト情報である「大島」を知識名データとして決定する。
【0050】
CPU203は、決定した知識名データをメモリ205に記憶する(ステップS505)。図3のコンテンツの場合、「大島」が知識名データとして記録される。
【0051】
1−4−2.知識IDの付与
CPU203は、知識名抽出処理で抽出した知識名データに対して知識IDを付与する(ステップS417)。知識IDは、各知識情報データを識別するものであって、例えば、連続番号を用いて作成すればよい。
【0052】
1−4−3.特徴部分抽出処理
CPU203は、読み込んだコンテンツに基づいて、特徴部分抽出処理を行う(ステップS419,図4)。図6に、特徴部分抽出処理におけるフローチャートを示す。
【0053】
CPU203は、読み込んだコンテンツの内容部分を検出する(ステップS601)。例えば、図3のHTMLで記述されたコンテンツにおいては、<BODY>タグ305および</BODY>タグ307を検索することにより、これらのタグで囲まれた部分を内容部分として検出する。
【0054】
CPU203は、検出した内容部分の1行目の文を取得する(ステップS603)。図3のコンテンツ31においては、<BODY>タグ305以降であって、最初の「。」が登場するまでのテキスト部分のうち、タグ部分(<P>タグ、<A>タグ等)を除いた部分を1行目の文として取得する。
【0055】
例えば、
”<P><A HREF="izusyotou.html">伊豆諸島</A>最北部にある最大の島。”
が<BODY>タグ305以降であって、最初の「。」が登場するまでのテキスト部分であり、これのタグ部分を除くと
”伊豆諸島最北部にある最大の島。”
が内容部分の1行目の文となる。
【0056】
CPU203は、取得した内容部分の1行目の文に対して形態素解析を行う(ステップS605)。図7に、取得した内容部分の1行目の文を形態素解析して特徴部分を抽出する場合の例を示す。
【0057】
図7において、”伊豆諸島最北部にある最大の島。”701は、抽出した内容部分の1行目の文である。CPU203は、この文を形態素解析し、”|伊豆諸島|最北部|に|ある|最大|の|島|。”703に示すように、最小の言語単位である形態素に分割する。図7aに、このときメモリに格納される処理結果を示す。図7aにおいては、分割された形態素707毎に品詞709が記録されている。
【0058】
CPU203は、形態素に分割した文から名詞のみを抽出し、これを特徴部分データとして決定する(ステップS607)。すなわち、CPU203は、図7aに示す品詞が名詞である形態素のみを抽出し、それぞれの名詞を特徴部分データとして決定する。図7の705は、このとき特徴部分データとして抽出される名詞である。
【0059】
CPU203は、決定した特徴部分をメモリ205に記憶する(ステップS609)。図7の場合、「伊豆諸島」,「最北部」,「最大」,「島」がそれぞれ特徴部分データとして記憶される。
【0060】
1−4−4.主定義語・補助定義語抽出処理
CPU203は、読み込んだコンテンツに基づいて、主定義語・補助定義語抽処理を行う(ステップS421,図4)。図8に、主定義語・補助定義語抽出処理におけるフローチャートを示す。
【0061】
CPU203は、メモリ205に記憶した特徴部分データを読み込む(ステップS801)。例えば、図7の705に示した特徴部分データである「伊豆諸島」,「最北部」,「最大」,「島」が読み込まれる。
【0062】
CPU203は、読み込んだ特徴部分データのうち末尾の特徴部分データを主定義語データとして決定する(ステップS803)。図7の例においては、「島」が末尾の特徴部分であるので、これを主定義語データとして決定する。CPU203は、決定した主定義語である「島」をメモリ205に記憶する(ステップS805)。
【0063】
CPU203は、読み込んだ特徴部分データのうち、主定義語データとして決定した特徴部分データを除く他の特徴部分データを補助定義語データに決定する(ステップS807)。図7の例においては、「伊豆諸島」,「最北部」,「最大」が主定義語データとして決定した特徴部分データを除く他の特徴部分データであるので、これを補助定義語データとして決定する。CPU203は、決定した補助定義語データである「伊豆諸島」,「最北部」,「最大」をメモリ205に記憶する(ステップS809)。
【0064】
1−4−5.関連語抽出処理
CPU203は、読み込んだコンテンツに基づいて、関連語抽処理を行う(ステップS423,図4)。図9に、関連語抽出処理におけるフローチャートを示す。
【0065】
CPU203は、読み込んだコンテンツの内容部分の中からリンク情報を検出する(ステップS901)。図3のHTMLで記述されたコンテンツにおいては、<A〜>タグ309および</A>タグ311を検索することにより、これらのタグで囲まれた部分をリンク情報として検出する。
【0066】
例えば、
”<A HREF=”izusyotou.html”>伊豆諸島</A>”
から検出されるリンク情報は「伊豆諸島」であり、
”<A HREF=”miharayama.html”>三原山</A>”
から検出されるリンク情報は、「三原山」である。
【0067】
CPU203は、検出したリンク情報を関連語データとして決定し(ステップS903)、これらをメモリ205に記憶する(ステップS905)。
【0068】
1−4−6.知識情報データの記録
CPU203は、上記の処理においてメモリ205に記憶した知識名データ、知識ID、主定義語データ、補助定義語データおよび関連語データを知識情報データとして知識情報データベース40に記録する(ステップS425)。
【0069】
図10に、知識情報データベース40の例を示す。このデータベースは、知識名1001、知識ID1003、主定義語1005、補助定義語1007および関連語1009がそれぞれ記録される。上記の例の場合、知識名「大島」、知識ID「001」、主定義語「島」、補助定義語「伊豆諸島,最北部,最大」および関連語「伊豆諸島,三原山」が記録される。
【0070】
1−4−7.処理の終了
読み込んだコンテンツに関する知識情報データを記録すると、CPU203は、知識情報データを作成していない他のコンテンツがあるか否かを判断し、コンテンツがあれば(ステップS427,YES)、ステップS413に戻って新たなコンテンツを読み込み、上記と同様の処理を繰り返すことにより知識情報データを作成する。なお、すべてのコンテンツについて知識情報データを作成したと判断すれば(ステップS427,NO)、当該処理を終了する。
【0071】
1−4−8.まとめ
このように、百科事典であるコンテンツ集合を入力し、それぞれのコンテンツの内容に基づいて、知識名データ、知識ID、主定義語データ、補助定義語データおよび関連語データを抽出してコンテンツの知識情報データとすることにより、百科事典全体の知識情報データを容易に作成することができる。
【0072】
上記においては、コンテンツを記録するコンテンツサーバ1と、知識情報作成処理を行う知識情報作成装置3とに分けて説明しているが、知識情報作成装置3にコンテンツを記録する記録手段を設け、知識情報作成装置3のみで処理を行うように構成してもよい。また、コンテンツサーバ1に知識情報作成プログラム250をインストールして、コンテンツサーバ1において知識情報作成処理を行うように構成してもよい。
【0073】
上記においては、百科事典を構成するコンテンツを例として説明しているが、これに限定されることなく、タイトルおよびその内容を有するコンテンツであれば適用して、知識情報データを作成することができる。
【0074】
上記においては、1行目の文を形態素解析した結果に基づいて特徴部分を抽出するように構成しているが、他の文に基づいて特徴部分を抽出するようにしてもよい。
【0075】
例えば、任意の行の文や最も多く語を含む文に基づいて特徴部分データを抽出するように構成してもよい。また、例えば、タイトルが文の先頭にある文に基づいて特徴部分データを抽出するようにしてもよい。
【0076】
さらに、例えば、タイトルを構成する語がその文の末尾近傍に存在する文に基づいて特徴部分データを抽出するようにしてもよい。なお、末尾近傍とは、当該文における末尾の語のみならず、例えば、当該文を構成する文字列において下位10%以下に存在する語が存在する位置をいう。
【0077】
上記においては、形態素解析の結果から名詞のみを特徴部分の抽出対象としたが、動詞や形容詞等のような他の品詞を抽出対象としてもよい。
【0078】
上記においては、決定した文の特徴部分データの末尾の語を主定義語データを抽出するようにしたが、当該文における知識名データとの係り受け関係に基づいて抽出するようにしてもよい。
【0079】
例えば、「大島は、伊豆諸島最北部にある最大の島である。」という文の場合、「大島は」と「島である」は係り受け関係にあり、「大島は」は係り文節であり、「島である」は受け文節である。したがって、知識名データが「大島」である場合において、この「大島」を含む係り文節と係り受け関係にある文節である「島である」から抽出される語である「島」を主定義語として抽出することができる。
【0080】
上記においては、HTMLで記述されたコンテンツを用いて説明したがコンテンツの記述形式はこれに限定されることはない。例えば、SGMLやXMLなどで記述された文書やその他の構造化文書であってもよい。また、タイトルおよびその内容がコンピュータによって認識可能であれば、通常のテキストのみで記述された文書であってもよい。例えば、タイトルと内容とを別々の行に分けて記述された文書、所定の位置にタイトルと内容が記述された文書またはCSVファイルのように記号で区切られた文書などがこれに該当する。
【0081】
2.検索システム
以下、本発明における検索システムについて説明する。この検索システムは、上述した知識情報作成装置において作成した知識情報を用いて検索処理を行うものである。
【0082】
2−1.機能ブロック図
図11に、本発明にかかる検索システムの全体構成図を示す。この検索システムは、入力手段1101、知識情報抽出手段1103、コンテンツデータ抽出手段1105、適合度判定手段1107、および出力手段1109を備えている。
【0083】
入力手段1101には、ユーザの操作によって、基本データである検索キーワードが当該検索システムに入力される。知識情報抽出手段1103は、検索キーワードとして入力された基本データに関する知識情報を知識情報データベース1104から抽出する。コンテンツデータ抽出手段1105は、入力された検索キーワードが含まれるコンテンツデータをコンテンツデータベース1106から抽出する。
【0084】
適合度評価手段1107は、コンテンツデータ抽出手段1105によって抽出されたコンテンツデータと知識情報検索手段1103によって抽出された知識情報との適合の度合いを評価する。出力手段1109は、適合度評価手段1107からの評価結果を受けてユーザ所望のコンテンツデータを出力する。
【0085】
2−2.ハードウェア構成
図12に、上記検索システムを構成するコンピュータ装置を用いて実現する場合におけるハードウェア構成図を示す。このコンピュータ装置は、ディスプレイ1201、CPU1203、メモリ1205、キーボード/マウス1207、ハードディスク1209、およびCD−ROMドライブ1211を備えている。
【0086】
ハードディスク1209は、入力手段1101における画面インターフェイス、コンテンツデータ抽出手段1105、知識情報抽出手段1103、適合度評価手段1107、および出力手段1109を実現して本発明にかかる検索処理を行うための検索プログラム250を記憶している。
【0087】
この検索プログラムは、例えば、CD−ROM1213からCD−ROMドライブ1211を介してハードディスク1209にインストールされたものである。なお、フレキシブルディスクやICカード等のようにCD−ROM以外の記録媒体に記録された処理プログラムからインストールするようにしてもよい。さらに、通信回線を介して他のコンピュータに記録された処理プログラムをインストールするようにしてもよい。通信回路1215は、他のコンピュータ装置との通信を行うための回路である。
【0088】
2−3.フローチャート
次に、ハードディスク1209に記憶されている検索プログラムに基づく検索処理について、図13〜図16を用いて説明する。
【0089】
以下では、百科事典コンテンツの「大島」の項目を参照している場合において、この「大島」を基本データとして知識情報を検索し、さらに、これに関連する別のコンテンツである年鑑記事コンテンツをコンテンツデータとして検索する場合について説明する。
【0090】
ここで「年鑑記事コンテンツ」とは、複数分野における出来事や統計などを年度ごとに収録または解説した刊行物を、電子データとして記録したものである。
【0091】
図13に、ユーザが百科事典コンテンツを参照している画面130を示す。この画面130においては、百科事典の項目欄131に「大島」が表示されており、その説明欄133に「大島」を説明する文が表示されている。また、項目欄131の右には、「大島」を知識名とする知識情報データベース40(図10)の知識IDが表示されている。
【0092】
画面130の右下には、「年鑑記事検索」ボタン135が表示されており、ユーザはこのボタンを押下することにより、項目である「大島」に関連する年鑑記事コンテンツを検索することができるようになっている。
【0093】
図14に、ユーザが年鑑記事コンテンツを検索する場合における検索システムのフローチャートを示す。
【0094】
画面130において、ユーザが「年鑑記事検索」ボタン135を押下すると(ステップS1401,YES)検索システムのCPU1203は、百科事典の項目と、これに対応する知識IDを読み込む(ステップS1403)。例えば、画面130の例においては、項目「大島」と、これに対応する知識ID「001」が読み込まれる。
【0095】
CPU1203は、読み込んだ知識IDに基づいて知識情報データベース40を検索し、当該知識IDにかかる知識情報を抽出する(ステップS1405)。なお、ステップS1405において、知識情報データベース40から抽出されたデータは知識データとしてメモリ1205上に記憶される。
【0096】
CPU1203は、読み込んだ百科事典の項目に基づいて年鑑記事コンテンツデータベース143を検索し、当該項目を含むコンテンツをすべて抽出する(ステップS1407)。なお、ステップS1407において、年鑑記事コンテンツから抽出されたデータは検索結果145としてメモリ1205上に記憶される。
【0097】
検索結果145において、ヒット件数が0件でなければ(ステップS1409,YES)、CPU1203は検索結果と知識情報との適合の度合いを評価する処理(ステップS1411〜1416)を行う。なお、ヒット件数が0件であれば(ステップS1409,NO)、検索結果が0件である旨を表示して(ステップS1417)、処理を終了する。
【0098】
図15は、検索プログラムにおいて検索結果への点数加算処理を行う場合に、メモリ1205上に記憶されるデータの例を示す図である。この図においては、検索結果1501、主定義語の点数1503、補助定義語の点数1505、関連語の点数1507、および合計1505の各データが表形式で管理される。
【0099】
CPU1203は、ステップS1411において、知識情報の主定義語を含む検索結果に点数を加算する処理を行う(ステップS1411)。なお、ステップS1411の加算処理においては、主定義語の個数にかかわらず、主定義語が1つでも含まれていれば所定の点数(5点)を加算するようにしている。
【0100】
例えば、図10において示したように知識名「大島」の主定義語は「島」である。CPU1203は、メモリ1205に記憶した検索結果である年鑑記事のコンテンツデータ15A〜15Dの中から主定義語「島」を含むコンテンツデータを検索し、該当するコンテンツデータの主定義語の点数1503に所定の点数(5点)を加算する。
【0101】
図15においては、コンテンツデータ15A「奄美大島では、自然破壊が深刻…島の南側では…」およびコンテンツデータ15D「伊豆大島で震度2の揺れ、島の中心部から三原山にかけて…被害が最大である。」に主定義語「島」が含まれているため、これらのコンテンツデータに対して、点数(5点)を加算している。
【0102】
CPU1203は、ステップS1413において、知識情報の補助定義語を含む検索結果に点数を加算する処理を行う(ステップS1413)。なお、ステップS1413の加算処理においては、含まれる補助定義語の個数にかかわらず、補助定義語が1つでも含まれていれば所定の点数(3点)を加算するようにしている。
【0103】
例えば、図10において示したように知識名「大島」の補助定義語は「伊豆諸島、最北部、最大」である。CPU1203は、メモリ1205に記憶した検索結果である年鑑記事のコンテンツデータ15A〜15Dの中から補助定義語「伊豆諸島」、「最北部」または「最大」を含むコンテンツデータを検索し、該当するコンテンツデータの補助定義語の点数1505に所定の点数(2点)を加算する。
【0104】
図15においては、コンテンツデータ15C「映画監督の大島渚さんが、伊豆諸島を舞台
に撮影…三原山などの…」およびコンテンツデータ15D「伊豆大島で震度2の揺れ、島の中心部から三原山にかけて…被害が最大である。」に補助定義語「伊豆諸島」が含まれているため、これらのコンテンツデータに対して、点数(2点)を加算している。
【0105】
CPU1203は、ステップS1417において、知識情報の関連語を含む検索結果に点数を加算する処理を行う(ステップS1415)。なお、ステップS1415の加算処理においては、含まれる関連語の個数にかかわらず、関連語が1つでも含まれていれば所定の点数(1点)を加算するようにしている。
【0106】
例えば、図10において示したように知識名「大島」の関連語は「伊豆諸島、三原山」である。CPU1203は、メモリ1205に記憶した検索結果である年鑑記事のコンテンツデータ15A〜15Dの中から補助定義語「伊豆諸島」または「三原山」を含むコンテンツデータを検索し、該当するコンテンツデータの関連語の点数1507に所定の点数(1点)を加算する。
【0107】
図15においては、コンテンツデータ15C「映画監督の大島渚さんが、伊豆諸島を舞台に撮影…三原山などの…」およびコンテンツデータ15D「伊豆大島で震度2の揺れ、島の中心部から三原山にかけて…被害が最大である。」に関連語語「三原山」が含まれているため、これらのコンテンツデータに対して、点数(1点)を加算している。
【0108】
次に、CPU1203は、上記において加算した点数をコンテンツデータ毎に合計する処理を行う(ステップS1416)。図15においては、合計1509にコンテンツデータ毎の合計点数が記憶される。
【0109】
CPU1203は、上述した検索結果と知識情報との適合の度合いを評価する処理(ステップS1411〜1415)を終えると、その処理結果を、年鑑記事検索の検索結果としてディスプレイ1201に表示する(ステップS1417)。
【0110】
図16に、この場合にディスプレイ1201に表示される画面の例を示す。この画面では、図15において適合の度合いを評価した結果である合計点数に基づいて、検索結果を並び替えて表示している。
【0111】
例えば、点数の一番高かった15Dの年鑑記事のコンテンツデータを先頭に表示し、2番目に点数の高かった15Aの年鑑記事のコンテンツデータをその次に表示している。なお、15Bの年鑑記事のコンテンツデータのように所定点数(1点)に満たない場合には表示しないようにしている。
【0112】
2−4.まとめ
このように、基本データである項目「大島」に基づく知識情報を用いて、年鑑記事コンテンツデータの検索結果を評価することにより、検索の精度を高めることができる。これにより、複数のキーワードを入力しなくても最適なコンテンツを探し当てることができる。
【0113】
3.その他の実施形態
上記実施形態においては、定義語、補助定義語または関連語などのランク付けされた知識データが年鑑記事コンテンツに含まれるか否かによって、適合するか否かの評価を行っているが、これらの知識データの出現回数に応じて点数を加算するように構成してもよい。
【0114】
例えば、年鑑記事コンテンツ内に同一の知識データが2回出願した場合には点数を2倍にして加算して評価するようにしてもよい。
【0115】
また、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否かに加えて、これらの知識データの出現回数に応じて点数を加算するように構成してもよい。
【0116】
上記実施形態においては、定義語、補助定義語または関連語のランク付けされた知識データが年鑑記事コンテンツに含まれるか否かによって、適合するか否かの評価を行っているが、さらに、これらの知識データの出現位置を考慮して評価を行うように構成してもよい。
【0117】
例えば、年鑑記事コンテンツの前半部分に知識データが位置している場合には、さらに点数を加算して評価するようにしてもよい。さらに、年鑑記事コンテンツの後半部分に知識データが位置している場合には、点数を減算して評価するようにしてもよい。
【0118】
例えば、年鑑記事コンテンツを構成する文のうち、特定の文に知識データが含まれているか否かを考慮して点数を加算するようにしてもよい。すなわち、最初の一文に知識データが含まれている場合には点数を加算するようにしてもよい。さらに、年鑑記事コンテンツの最後の文に知識データが含まれている場合には、点数を減算して評価するようにしてもよい。
【0119】
また、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否かに加えて、これらの知識データの出現位置に応じて点数を加算するように構成してもよい。
【0120】
さらに、ランク付けされた知識データが年鑑記事コンテンツに含まれるか否か、およびこれらの知識データの出現回数に応じて点数を加算する構成に加えて、これらの知識データの出現位置に応じて点数を加算するように構成してもよい。
【0121】
上記実施形態においては、百科事典を構成するコンテンツから年鑑記事コンテンツを検索する場合の例を説明しているが、これに限定されることなく、インターネット上のコンテンツを対象に検索処理を行うように構成してもよい。
【0122】
図17に、この場合のシステム構成図の例を示す。この図においては、コンテンツデータ抽出手段1105は、インタネット17を介して接続可能なサーバ1701からコンテンツを抽出するようにしている。
【0123】
このように、インターネットを介して接続されるサーバ上のコンテンツを利用することにより、検索の元となるコンテンツを当該システム内の年鑑記事コンテンツに限定することなく本発明を実施することができる。
【0124】
上記実施形態においては、ユーザが参照している百科事典コンテンツに基づく知識情報を用いて検索処理を行っているが、受け付けた任意のキーワードに基づく知識情報を用いて検索処理を行うように構成してもよい。
【0125】
例えば、本発明にかかる検索システムをインターネット上に公開して、ユーザのクライアント1703から任意の検索キーワードを受け付け、当該キーワードを本発明の検索システムに入力し、その検索結果をクライアント1703に送信することにより、インターネット上の検索エンジンとしての利用も可能である。
【0126】
上記実施形態においては、知識情報作成装置3を用いる方法によって知識情報データベース40を作成された知識情報を利用して検索システムを構成しているが、この方法に限定されることなく、人手による方法やその他の方法で作成された知識情報を利用して構成するようにしてもよい。
【0127】
上記実施形態においては、図1に示す機能を実現する為に、CPUを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティングシステム(OS)にさせるようにしてもよい。
【図面の簡単な説明】
【図1】この発明の一実施形態における知識情報作成装置の全体構成の例を示す図である。
【図2】この発明の一実施形態における知識情報作成装置のハードウェア構成図である。
【図3】この発明の一実施形態におけるコンテンツの例を示す図である。
【図4】この発明の一実施形態における知識情報作成装置のフローチャートの例を示す図である。
【図5】この発明の一実施形態における知識名抽出処理のフローチャートの例を示す図である。
【図6】この発明の一実施形態における特徴部分抽出処理のフローチャートの例を示す図である。
【図7】この発明の一実施形態における文から特徴部分データを抽出する場合の例を示す図である。
【図7a】この発明の一実施形態における文を形態素解析した結果の例を示す図である。
【図8】この発明の一実施形態における主定義語・補助定義語抽出処理のフローチャートの例を示す図である。
【図9】この発明の一実施形態における関連語抽出処理のフローチャートの例を示す図である。
【図10】この発明の一実施形態における知識情報データベースの例を示す図である。
【図11】この発明の一実施形態における検索システムの全体構成の例を示す図である。
【図12】この発明の一実施形態における検索システムのハードウェア構成図である。
【図13】この発明の一実施形態における百科事典の参照画面の例を示す図である。
【図14】この発明の一実施形態における検索システムのフローチャートの例を示す図である。
【図15】この発明の一実施形態における検索結果への点数加算の例を示す図である。
【図16】この発明の一実施形態における検索結果の表示の例を示す図である。
【図17】この発明の一実施形態におけるインターネットを用いた検索システムの全体構成の例を示す図である。
【符号の説明】
1100・・・検索システム
1101・・・入力手段
1103・・・知識情報抽出手段
1104・・・知識情報データベース
1105・・・コンテンツデータ抽出手段
1106・・・コンテンツデータベース
1107・・・適合度評価手段
1109・・・出力手段

Claims (6)

  1. 基本データに基づいて、関連するコンテンツデータの検索を行う検索システムであって、
    基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、
    基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出す知識情報抽出手段と、
    コンテンツデータ抽出手段によって抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する適合度評価手段とを備え、
    前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
    前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
    前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
    前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
    前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
    これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
    を特徴とする検索システム。
  2. 基本データに基づいて、関連するコンテンツデータの検索を行う検索システムをコンピュータを用いて実現するためのプログラムであって、
    コンピュータを
    基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出するコンテンツデータ抽出手段と、
    基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出す知識情報抽出手段と、
    コンテンツデータ抽出手段によって抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する適合度評価手段として機能させるためのプログラムであって、
    前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
    前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
    前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
    前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
    前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
    これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
    を特徴とするプログラム。
  3. 請求項1または2の検索システムまたはプログラムにおいて、
    前記知識情報用のコンテンツデータに含まれるリンク情報を関連語データとして抽出して知識情報とし、
    前記適合度評価手段は、各コンテンツデータにおいて前記関連語データが含まれるか否かも判断し、当該関連語データのウエイトを補助定義語データのウエイトより小さくして、各コンテンツデータごとに適合度を評価することを特徴とするもの。
  4. 請求項3の検索システムまたはプログラムにおいて、
    前記適合度評価手段は、抽出されたコンテンツデータに含まれる主定義語データ、補助定義語データの出現回数によって前記適合度を評価すること
    を特徴とするもの。
  5. 請求項3の検索システムまたはプログラムにおいて、
    前記適合度評価手段は、抽出されたコンテンツデータに含まれる主定義語データ、補助定義語データの出現位置によって前記適合度を評価すること
    を特徴とするもの。
  6. コンピュータによって、基本データに基づいて、関連するコンテンツデータの検索を行う検索方法であって、前記コンピュータは、
    基本データを受けて、記録部に記録された複数のコンテンツデータから、当該基本データが含まれるコンテンツデータを抽出し、
    基本データを受けて、当該基本データに対応する知識名データを有する知識情報の主定義語データ、補助定義語データを知識情報データベースから読み出し、
    前記抽出された各コンテンツデータにおいて、前記主定義語データ、補助定義語データが含まれるか否かを判断し、主定義語データのウエイトを補助定義語データのウエイトより大きくして、各コンテンツデータごとに適合度を評価する方法であって、
    前記知識情報データベースは、タイトルと内容を関連づけて記録した知識情報用のコンテンツデータに基づいて作成される知識情報データベースであり、
    前記知識情報用のコンテンツデータからタイトルデータを抽出して知識名データとし、
    前記知識情報用のコンテンツデータの内容の最初の文を特徴部分データとして抽出して、当該特徴部分データに含まれる各語を特定し、
    前記特定した各語の中から、名詞のみを抽出し、末尾に現れる名詞を主定義語データとして抽出し、
    前記特徴部分データの名詞のうち、前記主定義語データ以外の名詞を補助定義語データとして抽出し、
    これら抽出された知識名データ、主定義語データ、補助定義語データを知識情報として記録したものであること、
    を特徴とする検索方法。
JP2003162289A 2003-06-06 2003-06-06 検索システムおよびその方法 Expired - Fee Related JP4390039B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003162289A JP4390039B2 (ja) 2003-06-06 2003-06-06 検索システムおよびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003162289A JP4390039B2 (ja) 2003-06-06 2003-06-06 検索システムおよびその方法

Publications (2)

Publication Number Publication Date
JP2004362427A JP2004362427A (ja) 2004-12-24
JP4390039B2 true JP4390039B2 (ja) 2009-12-24

Family

ID=34054478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003162289A Expired - Fee Related JP4390039B2 (ja) 2003-06-06 2003-06-06 検索システムおよびその方法

Country Status (1)

Country Link
JP (1) JP4390039B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014097392A1 (ja) * 2012-12-18 2014-06-26 三菱電機株式会社 検索装置

Also Published As

Publication number Publication date
JP2004362427A (ja) 2004-12-24

Similar Documents

Publication Publication Date Title
McEnery et al. Corpus linguistics: Method, theory and practice
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US20040117352A1 (en) System for answering natural language questions
JPH03172966A (ja) 類似文書検索装置
KR20120001053A (ko) 문서 감성 분석 시스템 및 그 방법
US20090112845A1 (en) System and method for language sensitive contextual searching
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
Aksyonoff Introduction to Search with Sphinx: From installation to relevance tuning
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JPH09198395A (ja) 文書検索装置
JP2005063185A (ja) 文書検索システム、質問応答システム、文書検索方法
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4390039B2 (ja) 検索システムおよびその方法
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP4037250B2 (ja) 質問応答装置、質問応答プログラムおよび該プログラムを記録した記録媒体
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees