JP2002183195A

JP2002183195A - 概念検索方式

Info

Publication number: JP2002183195A
Application number: JP2000383189A
Authority: JP
Inventors: Mieko Kiyosue; 三恵子清末; Ikuo Namiki; 育夫並木; Minoru Oyama; 実大山; Kaname Kasahara; 要笠原; Tsuneaki Kato; 恒昭加藤
Original assignee: NTT Advanced Technology Corp; Nippon Telegraph and Telephone Corp
Current assignee: NTT Advanced Technology Corp; Nippon Telegraph and Telephone Corp
Priority date: 2000-12-18
Filing date: 2000-12-18
Publication date: 2002-06-28

Abstract

(57)【要約】【課題】文書あるいは文書以外のマルチメ
ディアのコンテンツを検索する情報検索方式において、
検索質問文から、利用者の検索意図を反映したコンテン
ツの属性項目（タグ）を特定することによって、確度の
高い検索が可能な、意図情報抽出による概念検索方式を
提供することにある。【解決手段】本発明による概念検索方式は、文
書あるいは文書以外のマルチメディアのコンテンツにお
けるそれぞれのコンテンツの属性情報を、その性質を表
わした自然言語で記述した属性項目（タグ）によって区
分されたタグつき属性情報について、該タグつき属性情
報中のテキストより抽出した単語で、不要語に該当しな
い個々の単語（見出し語）と、各タグとの関連度を要素
とした行列であるタグつき属性情報による概念ベースを
作成し、対象コンテンツを検索する際に、該タグつき属
性情報による概念ベースを参照し、検索の質問文中に含
まれる見出し語と関連度が高いタグに係る属性情報を検
索することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、意味的に構造化し
た属性項目（タグ）とキーワードとの関連度を用いた意
図情報抽出による概念検索方式に関する。すなわち、文
書および文書以外のマルチメディアコンテンツ情報検索
方式において、大量のマルチメディアコンテンツデータ
から必要なコンテンツを高速に検索したい場合に用い、
特に、自然言語で記述した検索質問文の中から、利用者
の検索要求の意図情報、すなわち検索したいコンテンツ
を絞り込むための情報を抽出することが可能な、文書お
よびマルチメディアコンテンツ情報の概念検索方式に関
するものである。

【０００２】

【従来の技術】現在、インターネットの普及等にともな
い、様々な情報が電子媒体を通じて利用可能であり、膨
大な情報が生成され続けている。こうした背景から膨大
な情報の中から必要な情報を迅速にみつけだすことは至
難の技であり、様々な情報検索技術が研究されている。

【０００３】こうした中で、テキスト検索についての従
来の検索方式としては、キーワード検索方式と全文検索
方式が一般的であるが、最近の新しい技術としては概念
検索方式がある。

【０００４】キーワード検索方式は、指定した単語や文
字列をキーワードとし、文書に対してあらかじめ複数付
与しておいたキーワードと照合して、完全あるいは部分
的に一致したキーワードをもつ文書を検索結果として抽
出する検索方式である。指定した単語や文字列（キーワ
ード）を論理積（ＡＮＤ）、論理和（ＯＲ）、否定（Ｎ
ＯＴ）の演算子を用いて検索式を設定することが可能で
ある。

【０００５】全文検索方式は、指定した単語や文字列を
キーワードとし、文書中のすべての文と照合して、その
文字列と完全に一致する文字列を含んでいる文書を検索
結果として抽出する検索方式である。文書中の任意の語
をキーワードとすることが可能である。

【０００６】概念検索方式は、前記２つの検索方式が単
なる文字列の一致で照合するのに対し、検索条件を定め
るために指定されたキーワードの意味と、文書の意味の
近さを、概念ベースを用いて計算し、それにもとづいて
検索する方式である。概念ベースについては、国語辞典
などの辞書の語釈文に記述された定義単語の集合により
記述した概念ベースと、新聞記事文章や論文など大量の
文章を集めたコーパスにより記述した概念ベースとが使
用されている。

【０００７】コーパスによる概念ベースについては、Ｓ
ｈｕｔｚｅ，Ｈ．：「ＤｉｍｅｎｓｉｏｎｓｏｆＭ
ｅａｎｉｎｇ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＳｕ
ｐｅｒｃｏｍｐｕｔｉｎｇ９２，ｐ．７８７−７９
６（１９９２）」に記載のように、新聞記事文章や
論文など大量の文章を集めたコーパスにより記述した概
念ベースで、コーパスに含まれる個々の単語について、
その単語と一緒に現れる単語を共起語、その現れる度合
いを類似度として単語の概念を表わしたものである。例
えば、文書を単語が順番に並んだ単語列と見なし、個々
の単語に対し前後５０単語以内にあらわれる単語を共起
語、共起語の出現頻度を類似度として概念ベースを構成
するものである。

【０００８】また、国語辞典をもとにして概念ベースを
自動作成する方法は、「類似判別利用データ精練方法お
よびこの方法を実施する装置」（特願平６−０９６０１
１松澤、笠原、湯川、石川）に記載のように、国語辞典
などの辞書の見出し語に対して語義文中の単語を共起
語、共起語の出現頻度を類似度として、見出し語に対す
る概念を作成し、さらに作成された概念ベース中の単語
と共起語、共起語同士の関連性を考慮し、個々の概念の
品質を高める精錬を実施するものである。

【０００９】これらの概念ベースでは、検索条件（検索
式）を定めるために指定されたキーワードの集合も、検
索対象文書も、それら概念ベースを用いて、一つの空間
にそれぞれ概念として配置される。そして、言葉と言葉
の意味の近さを、０から１までの数値（類似度）で表す
方法によって表現している。検索条件を定めるために指
定されたキーワード、検索対象文書中の単語、それらす
べての間の類似度が利用可能である。それによって、最
も意味の近い概念を有するコンテンツを検索結果として
抽出することができる。

【００１０】

【発明が解決しようとする課題】キーワード検索方式に
ついては、キーワードの設定が利用者の意識と必ずしも
一致しない、利用者の検索要求を適切な検索条件（検索
式）として表現することが難しいなどの欠点があった。
また、全文検索方式については、キーワードを照合する
範囲が広がるので検索漏れが少なくなるが、指定した単
語や文字列が文書中に存在しても、それが文書の内容と
必ずしも対応するものではないため、必要のない文書も
検索結果として抽出してしまうなどの欠点があった。

【００１１】これらの欠点を解決する手法として考案さ
れた概念検索方式については、元のキーワードだけでな
く意味が類似の単語を含めて検索するので、同様の内容
の文献を抽出することに関してはさらに検索漏れが少な
くなるが、キーワードの意味と文書の意味の近さを計算
する際、付属語などの不要語を除くすべての単語を同等
に扱って計算するため、それぞれの単語間の意味的な類
似度の計算により概念としての内容が把握できても、そ
れは利用者の検索したい内容は含まれるものの、その内
容と比べると広い概念となってしまい、不要な情報も検
索結果として抽出してしまうという欠点があった。

【００１２】そこで、本発明の目的は、キーワード検索
方式の、利用者の検索要求を適切な検索条件として表現
することが難しいという欠点、全文検索方式の、指定し
たキーワードが文書の内容を必ずしも表すものでなく、
必要のない文書を検索してしまうという欠点、概念検索
方式の、利用者の検索したい内容は含まれるものの、そ
の内容と比べると広い概念となってしまい、不要な情報
も検索結果として抽出してしまうという欠点、すなわ
ち、必ずしも利用者の検索したい内容の意図でしぼりこ
むことができなかったという欠点を解決し、検索質問文
から、利用者の検索要求の一つの意図情報として、コン
テンツの属性情報を抽出することにより、確度の高い検
索が可能な、意図情報抽出による概念検索方式を提供す
ることにある。

【００１３】

【課題を解決するための手段】上記課題を解決するため
に、本発明による概念検索方式は、文書あるいは文書以
外のマルチメディアのコンテンツ（文書と文書以外のマ
ルチメディアのコンテンツを含む。以下、本明細書の詳
細な説明において「コンテンツ」という。）におけるそ
れぞれのコンテンツの属性情報を、その性質を表わした
自然言語で記述した属性項目（以下、本明細書の詳細な
説明において「タグ」という。）によって区分されたタ
グつき属性情報について、該タグつき属性情報中のテキ
ストより抽出した単語で、不要語に該当しない個々の単
語（以下、本明細書の詳細な説明において「見出し語」
という。）と、各タグとの関連度を要素とした行列であ
るタグつき属性情報による概念ベースを作成し、対象コ
ンテンツを検索する際に、該タグつき属性情報による概
念ベースを参照し、検索の質問文中に含まれるキーワー
ドと一致した見出し語が存在した場合、当該見出し語と
関連度が高いタグに係る属性情報を検索することを特徴
とする。

【００１４】本発明では、あらかじめ、自然言語で記述
したタグによって区分されたタグつき属性情報を木構造
に構造化して用いる（図１参照、詳細は後述する）。こ
のタグつき属性情報は決して特殊な情報ではなく、テキ
ストやＳＧＭＬのように普及している形式のデータであ
る。そのタグつき属性情報を用い、タグ名とその値（タ
グに係る属性情報の内容、図２でタグとタグで囲まれた
文字列）に含まれる見出し語との関連度をもとにして、
タグつき属性情報による概念ベース（図３参照、詳細は
後述する）を作成しておく。すなわち、タグつき属性情
報中のテキストより単語を抽出し、不要語に該当しない
個々の見出し語と個々のタグ名の関連度を要素とした行
列であるタグつき属性情報による概念ベースを作成して
おく。タグつき属性情報より検索対象のコンテンツを検
索する際に、タグつき属性情報をによる概念ベースを参
照し、検索質問文中に含まれるキーワードと一致した見
出し語が存在した場合、当該見出し語と関連度の高い属
性項目（タグ）のタグ名を特定する。その結果得られた
タグ名は、利用者の検索要求の一つの意図情報であり、
検索したいコンテンツを絞り込むための情報である。本
発明は、それを抽出することによって、数多くの検索対
象コンテンツの中から利用者が目的とするコンテンツを
効率的に選択できることを最も主要な特徴とする。

【００１５】利用者がキーボードなどの入力手段によ
り、検索質問文を入力する。その中から、キーワードを
抽出する際に、形態素解析処理により単語分割、品詞付
与を行ない、さらに付属語や、意味的に特徴のない語、
形式的な語などを、あらかじめ不要語ファイルに記録蓄
積させておき、不要語ファイルの不要語データと照合し
て、不要語を除去する。

【００１６】従来の技術では、まず、そのほとんどが、
意味的に構造化されたタグつき属性情報を検索対象にし
ていない。タグつき属性情報を検索対象としていたとし
ても、そのタグは単なる文書管理上使用するための文字
列でしかなく、タグ名をコンテンツの属性情報について
の意味をもった属性項目名として設定し、タグ名自身を
検索対象にする方法はとっていなかった。次に、コンテ
ンツの属性情報についての属性項目名、すなわちここで
いうタグ名とその値との共起関係を記述した、概念ベー
スを作成し、利用する方法は、従来の技術にはないこと
である。また、コンテンツの属性情報についてのタグ名
とその値との共起関係を利用して、検索質問文の単語か
ら、タグ名を特定するという方法を利用していない。さ
らに、利用者の検索要求から、コンテンツの属性情報に
結びつく、利用者の意図情報を抽出して、大量のコンテ
ンツから利用者の要求にそった、検索対象のしぼりこみ
も行っていなかった。

【００１７】本発明では、まず、あらかじめ、自然言語
で記述したタグによって構造化したタグつき属性情報を
用い、タグ名とその値となる見出し語との関連度をもと
にして、タグつき属性情報による概念ベースを作成す
る。

【００１８】また、概念ベースを作成するにあたり、本
発明による情報検索方式は、タグと見出し語との関連度
としては、当該見出し語が当該タグに出現する頻度を出
現率で記述したものを用いることを特徴とする。

【００１９】このタグつき属性情報による概念ベースの
作成方法を次に示す。タグ名と、その値（タグとタグで
囲まれた文字列、すなわち当該タグに係る属性情報の内
容）から見出し語を抽出し、両者の共起関係、すなわ
ち、あるタグの値として出現する見出し語とその出現頻
度を表にする。その出現頻度から、所定の計算方法によ
り出現率を計算する。これにより、ある見出し語がある
タグ名に出現する度合いを記した表が得られる。これ
を、タグつき属性情報による概念ベースとする。

【００２０】関連度として当該見出し語が当該タグに出
現する頻度を出現率で記述したものを用いることによ
り、関連度を定量的に把握できるので、検索対象である
概念的に近いコンテンツを効率よく検出できる。

【００２１】また、本発明による概念検索方式は、検索
の質問文中に含まれるキーワードと一致した見出し語が
存在した場合、当該見出し語と関連度が高いタグについ
て、タグ名インデックスファイル（図４参照、詳細は後
述する）を検索して、該関連度が高いタグのタグ名から
タグ別属性情報インデックスファイル名を取得し、次
に、該タグ別属性情報インデックスファイル（図５参
照、詳細は後述する）から該検索の質問文中に含まれる
キーワードを検索し、当該タグの値として該キーワード
と一致した見出し語を含むコンテンツのコンテンツＩＤ
を一次検索結果として得ることを特徴とする。

【００２２】すなわち、タグ名インデックスファイルを
作成する。このファイルは、すべてのタグの中で、下位
属性項目をもたない、最も下位となる属性項目、すなわ
ちタグの値をもつタグのみを使って作成される。タグの
値とは、タグとタグで囲まれた文字列、すなわち当該タ
グの内容をいう。タグ名インデックスファイルの内容と
して、各タグとそれに対応したタグ名及びタグ別属性情
報インデックスファイル名の組が記述される。

【００２３】さらに、タグ別属性情報インデックスファ
イルを作成しておく。このファイルは、タグごとに、タ
グ名と、その値を成すすべての見出し語と、そのタグの
値にその見出し語が含まれるコンテンツのコンテンツＩ
Ｄの３つの要素の組を対応させたものである。

【００２４】次に、検索質問文から抽出したキーワード
とタグつき属性情報による概念ベースの見出し語とを照
合する。具体的には、タグつき属性情報による概念ベー
スの「見出し語」列の中から、キーワードと一致する見
出し語をさがし、一致した見出し語があれば、その見出
し語の出現率とともにタグ名を得る。出現率が高いとい
うことは、キーワードがそのタグの属性情報として、頻
繁に出現するということであり、検索質問文の中に、該
当するタグの値に含まれる見出し語が存在することを規
定している。すなわち、それが利用者の検索要求の一つ
であり、意図情報である。

【００２５】次に、ここで特定できたタグについての、
タグ別属性情報インデックスファイルの値の見出し語の
中に、元の検索質問文のキーワードが含まれているか否
かを調べる。キーワードと一致した見出し語が存在した
場合は、そのタグがその見出し語を値としてもつコンテ
ンツのコンテンツＩＤを一次検索結果として得る。これ
は、検索質問文のキーワードからコンテンツの属性情報
中の一つの属性項目（タグ）を特定することによって、
確度の高い検索結果を得ることができるということであ
る。

【００２６】また、本発明による概念検索方式は、当該
タグの値として該キーワードと一致した見出し語を含む
コンテンツを検出できなかった場合は、該検索の質問文
中に含まれるキーワードに対して、コーパスをもとにし
て作成した概念ベース、または国語辞典をもとにして作
成した概念ベースを用いて、キーワードの連想処理を行
い、当該タグの値として当該連想キーワードと一致した
見出し語を含むコンテンツのコンテンツＩＤを二次検索
結果として得ることを特徴とする。

【００２７】すなわち、特定したタグのタグ別属性情報
インデックスファイルの値の中に、元のキーワードと一
致した見出し語が存在しなかったときのため、国語辞典
をもとにして作成した概念ベースあるいはコーパスをも
とにして作成した概念ベースを、あらかじめ作成してお
く。これらの概念ベースをもとにして、検索キーワード
から新たなキーワードを連想させることができる。ここ
で言う概念ベースとは、ある単語とその単語がもつ属性
（特徴概念）と、重要度の対を複数付与した属性集合を
記憶したデータである。

【００２８】そして、それぞれの概念ベースにより、あ
る単語とある単語の類似性をそれぞれの属性集合の一致
する度合いにより判別する技術、すなわち類似性判別技
術を用いて、類似している単語を抽出し、それを連想キ
ーワードとして出力する。概念ベースを用いて２つの単
語の類似度を計算する方法には、例えば「類似性判別装
置」（特願平４−２５１５１３笠原、松澤）に記載さ
れているように、２つの単語に対して概念ベースを参照
し、同じ属性項目における出現頻度を計算し、２つの単
語が類似している度合いである類似度を計算する方法が
ある。例えば、２つの単語の等しい属性項目における出
現頻度を掛け合わせ、その結果を加算し、２つの単語そ
れぞれの属性項目における出現頻度の二乗和の平方根で
除算した値が類似度として用いられている。これは、２
つの単語の概念を多次元空間上のベクトルであると見な
した場合、２つのベクトルのなす角度の余弦を表わして
いる。

【００２９】このキーワード連想処理は、本文、概要等
の内容そのものを表すコンテンツの属性情報（コンテン
ツの内容を説明する付属的な属性情報を除く）に係るキ
ーワードから、その国語辞典的意味分類による意味の単
語として類義語を連想すること、あるいは最近のその単
語の語用論的情報や頻繁に共起する単語を連想すること
ができるということに基づくものである。

【００３０】さらに、あらかじめ、コンテンツの属性情
報のうち内容そのものを表す属性情報に係るタグをデフ
ォルトタグとして定めておく。たとえば、文書データの
場合は「本文」タグであり、マルチメディアコンテンツ
の場合は「概要」タグである。そのデフォルトタグのタ
グ別属性情報インデックスファイルの値（当該タグに係
る属性情報の内容）を検索対象としてキーワードおよび
連想キーワードを検索し、キーワード或は連想キーワー
ドと一致した見出し語が値に含まれているコンテンツの
コンテンツＩＤを二次検索結果として得る。

【００３１】また、本発明による情報検索方式は、異な
るキーワードについて、一次検索結果と二次検索結果の
両方が存在する場合、複数の一次検索結果が存在する場
合又は複数の二次検索結果が存在する場合、それらの論
理積演算処理を行い、その結果得られたコンテンツＩＤ
を検索結果として得ることを特徴とする。

【００３２】この一次検索結果と二次検索結果の論理
積、複数の一次検索結果の論理積又は複数の二次検索結
果の論理積を求める演算処理により、検索結果をしぼり
こむことができる。したがって、これにより、本発明の
目的である、利用者の検索要求の一つの意図である、コ
ンテンツの属性情報で検索結果をしぼりこむことができ
るようになる。

【００３３】

【発明の実施の形態】図１は、本発明に係るコンテンツ
の属性項目（タグ）構造の例を示している。コンテンツ
としては論文のテキストデータを想定したもので、その
属性情報を属性項目（タグ）で規定し、木構造になって
いる。自然言語で記述した各タグは、階層的に構造化さ
れている。すなわち、コンテンツの属性情報はタグによ
り区分される。論文では、図１のように、＜前付け＞、
＜本体＞、＜後付け＞というように自然言語で属性項目
を規定することができる。また、＜前付け＞には＜コン
テンツＩＤ＞、＜タイトルグループ＞、＜著者グループ
＞などが下位属性項目として規定できる。さらに、＜著
者グループ＞の下位属性項目として、＜著者名＞、＜所
属＞、＜連絡先＞、またその下位属性項目として＜電話
番号＞、＜Ｅ−ｍａｉｌ＞などの属性を階層的に構造的
に規定することができる。最下位の属性項目のみ、タグ
の値として、属性情報をとることができる。図１ではこ
れら最下位の属性項目は四角で囲んだタグ以外のものが
該当する。このような階層構造になっているから、論文
の属性情報をタグの値（内容）として構造化することが
できる。ここで、タグ名が自然言語で記述されていない
場合であっても、タグ名の種類は限定されているので、
あらかじめ、タグ名と対応する自然言語の対応表を作成
して変換すれば対応可能である。これによって、例え
ば、ＨＴＭＬやＳＧＭＬのような一般的な（テキスト以
外の）タグつき属性情報も利用できる。

【００３４】図２は、タグつき属性情報の例である。図
１で規定したタグに、その値、すなわち属性情報の内容
をあてはめて作成したものである。コンテンツの属性情
報がタグによって区分され、タグの値が前後を＜タグ＞
により挟まれている。図２の例は、論文データについて
の例である。たとえば、＜タイトル＞タグには、「日英
変換技術と意味辞書」がタグの値として存在する。ま
た、＜タイトルグループ＞タグには値は存在しない。こ
のように、タグつき属性情報を用いて、タグとその値の
対応関係が明確化できる。

【００３５】図３（ａ）〜図３（ｃ）は、タグつき属性
情報による概念ベースの例を示している。その構築方法
を、図３（ａ）〜図３（ｃ）をもとに説明する。最初
に、図１のような自然言語で記述したタグを規定する。
これを使って、論文の属性情報について、各タグの値を
あてはめた図２のようなタグつき属性情報を作成する。
このようなデータを複数個もつデータの集合があると
き、各タグの値である文字列を、形態素解析して単語分
割し、付属語や形式的な意味のない語などあらかじめ定
めた不要語を除去し、見出し語を抽出する。不要語は予
め不用語ファイルに記録蓄積されており、各単語を不用
語ファイルの不用語データと照合することにより不要語
を除去できる。

【００３６】図３（ａ）に示すようにその見出し語を縦
軸に並べ、属性項目名を横軸に並べる。そして、キーワ
ードになり得る各見出し語がそれぞれの属性項目にタグ
の値として出現する出現頻度（α〜ω）をカウントし、
その数値を入れる。このようにして、各見出し語に対し
て出現頻度をカウントすることにより、Ｍ行Ｎ列の行列
が得られる。α〜ωに具体的な値を入れたものを、初期
の概念ベースとする。このような初期のタグつき属性情
報による概念ベースを図３（ｂ）に示す。

【００３７】さらに、キーワードになり得る各見出し語
が、どの属性項目に出現しているかを出現率で表わす。
図３（ｂ）中の「日英変換技術」という見出し語が各属
性項目に出現する頻度をα₁〜α_nとするとき、見出し語
Ａ₁が属性項目Ｂ₁に出現する度合い（Ｘα₁）を次のよ
うに求める。

【００３８】たとえば、α₁＝１、α_n-1＝１、α_n＝１
で、他はすべて０とのき、Ｘα₁＝０．３３、Ｘα_n-1＝
０．３３、Ｘα_n＝０．３３となる。また、見出し語Ａ₃
について、また、γ₃＝１０で、他はすべて０のとき、
Ｘγ₃＝１となる。このようにして求めた結果を図３
（ｃ）に示す。すなわち、一行の中での出現頻度の総和
を計算し、その総和で各頻度を割った値を出現率とす
る。この出現率は０から１の値で表される。ある見出し
語とある属性項目の関連度を、この出現率で表し、特定
の属性項目（タグ）にしか出現しない見出し語は、その
属性項目について出現率が１となる。また、一つの見出
し語がどの属性項目にも出現するような場合は、それら
の出現率は０に近い値に下がることになる。また、これ
らの値は属性項目の有効性（有意差）を反映した調整値
をかけあわせてもよい。このようにして得た図３（ｃ）
に示すような値をもつテーブルを、タグつき属性情報に
よる概念ベースとする。

【００３９】図４はタグ名インデックスの例である。タ
グとタグ別属性情報インデックスファイルを関連付けた
テーブルである。その作成方法を次に示す。ここで使用
するタグの中で、それ以上、下位属性項目をもたない、
最も下位となる属性項目、すなわち、タイトル、英字タ
イトル、著者名、経歴などについて、各タグに対応した
タグ別属性情報インデックスファイル名の組を記述して
おく。このようになっているため、タグ名が特定されれ
ば、このタグ名インデックスにより、タグ別属性情報イ
ンデックスファイルを特定することができる。

【００４０】図５はタグ別属性情報インデックスファイ
ルの例である。これは、最下位属性項目のタグについ
て、タグごとに、タグ名と、その値となるすべての見出
し語と、その見出し語が含まれるコンテンツのコンテン
ツＩＤの３つの要素を対応させたテーブルである。図５
はタグ名が「所属」の場合のタグの値とコンテンツＩＤ
の例を示す。このようになっているから、タグ名が特定
されれば、キーワードにより、具体的なコンテンツＩＤ
を得ることができる。

【００４１】図６は本発明の概念検索処理を説明するフ
ローチャートで、コンテンツが文書の場合のフローチャ
ートの例である。図６において処理ステップをＳ１〜Ｓ
３４で示す。ただし、Ｓ４、Ｓ２８はキーワード、Ｓ
６、Ｓ２６、Ｓ２７はデータベース、Ｓ１０、Ｓ１３、
Ｓ３０はファイルを示し、処理ステップとは異なる。ま
ず、文書および文書以外のマルチメディアコンテンツ情
報検索方式において、検索質問文入力待ちの開始状態
（Ｓ１）より、利用者がキーボードなどの入力手段によ
り検索質問文を入力する（Ｓ２）と、その検索質問文に
ついて形態素解析処理を行なって単語分割、品詞付与を
行ない、付属語や、意味的に特徴のない単語、形式的な
単語などあらかじめ定めておいた不用語ファイルの不要
語データと照合して、不要語を除去し、キーワード（Ｓ
４）を抽出する（Ｓ３）。キーワード（Ｓ４）は一次記
憶に保持される。

【００４２】抽出された各キーワードを１つずつ入力デ
ータとして、タグつき属性情報による概念ベース（Ｓ
６）を参照して、タグつき属性情報による概念ベースと
のマッチング処理を行う。このタグつき属性情報による
概念ベースとのマッチング処理（Ｓ５）では、図３に示
すタグつき属性情報による概念ベースの縦軸の「見出し
語」の中に、キーワードと一致する見出し語が存在する
か否かを調べ（Ｓ７）、キーワードと一致する見出し語
が存在した場合、その見出し語の出現率とともに属性
（タグ名）を特定する（Ｓ８）。

【００４３】次に、特定されたタグ名を入力データとし
て、図４に示すタグ名インデックス（Ｓ１０）のタグ名
と照合し（Ｓ９）、タグ別属性情報インデックスファイ
ル名を得る（Ｓ１１）。そして次に、図５に示すタグ別
属性情報インデックスファイル（Ｓ１３）のタグの値の
中で、キーワードを検索し（Ｓ１２）、キーワードと一
致した見出し語を含むコンテンツのコンテンツＩＤを得
るとともに、コンテンツＩＤごとにスコアを付与し（Ｓ
１４）、一次検索結果ファイルに格納する（Ｓ１５）。
このスコアは、タグつき属性情報による概念ベースで得
た出現率の値を付与する。

【００４４】一方、Ｓ７で、キーワードが存在しなかっ
た場合は、Ｎｏに進み、そのキーワードについては、コ
ーパスによる概念ベース（Ｓ２６）、あるいは国語辞典
による概念ベース（Ｓ２７）を利用して、キーワードの
連想処理を行い（Ｓ２５）、連想キーワードを得る（Ｓ
２８）。

【００４５】次に、その連想キーワード（Ｓ２８）を入
力データとして、あらかじめデフォルトタグとして設定
しておいたタグの、図５に示すタグ別属性情報インデッ
クスファイル（Ｓ３０）のタグの値の中から、連想キー
ワードと一致する見出し語があるか否かを調べ（Ｓ２
９）、一致する見出し語が存在した場合はタグ名を特定
し、タグ名からそのコンテンツＩＤを得るとともに、出
現頻度をスコアとして付与し（Ｓ３１）、二次検索結果
ファイルに格納する（Ｓ３２）。

【００４６】その後、すべての連想キーワードについて
処理したか否かを調べ（Ｓ３３）、未処理の連想キーワ
ードが存在する場合は、連想キーワードと、デフォルト
タグのタグ別属性情報インデックスファイルとのマッチ
ング処理（Ｓ２９）へもどる。以上をすべてのキーワー
ドについて処理したか否かを調べ（Ｓ１７）、処理した
場合は、一次検索結果の有無を調べる（Ｓ１８）。一次
検索結果がある場合は、二次検索結果の有無を調べ（Ｓ
２０）、両方ある場合は一次検索結果と二次検索結果の
論理積演算処理を行ない、検索結果ファイルに格納する
（Ｓ２１）。また、Ｓ２０で二次検索結果がない場合
は、一次検索結果を検索結果ファイルに格納する（Ｓ２
２）。また、Ｓ１８で一次検索結果がない場合は、二次
検索結果を検索結果ファイルに格納する（Ｓ３２）。

【００４７】なお、複数の一次検索結果が存在する場合
又は複数の二次検索結果が存在する場合、一次検索結果
同士又は二次検索結果同士の論理積演算処理を行い、そ
の結果得られたコンテンツＩＤを検索結果として得るよ
うにすることも可能である。

【００４８】その後、検索結果ファイルをスコアの高い
順にソーティングし（Ｓ２３）、検索結果を表示して
（Ｓ２４）、終了する（Ｓ３４）。

【００４９】次に、論文などの文書データだけでなく、
動画、静止画、音楽等のマルチメディアコンテンツを対
象とした情報検索方式について説明する。

【００５０】まず、図７で、マルチメディアコンテンツ
のための属性項目（タグ）の木構造の例を説明する。構
造的には、図１と同様、属性項目（タグ）で属性情報を
規定し、木構造となっている。マルチメディアのコンテ
ンツにおいても、テキスト情報を用いて、その属性情報
に、＜前付け＞、＜本体＞の属性項目を規定することが
できる。さらに、その下位属性項目として、＜タイトル
グループ＞、＜メディアグループ＞、＜分類グループ
＞、＜制作者グループ＞、＜概要＞などの属性項目が規
定され、＜メディアグループ＞には、＜メディア＞、＜
ファイル形式＞、＜ファイルサイズ＞などの属性項目を
階層的に構造的に規定することができる。すなわち、コ
ンテンツの属性情報はタグにより区分される。

【００５１】また、図１と同様に、最下位の属性項目の
み、タグの値をとることができる。このようにして、マ
ルチメディアコンテンツの属性情報を、タグの内容とし
て構造化できる。また、この属性項目に、図１で示した
属性項目も付け加えて、統一的に、マルチメディアの属
性項目（タグ）として規定することもできる。

【００５２】図８は、マルチメディアコンテンツについ
ての、タグつき属性情報の例である。図７で規定したタ
グに、その値すなわち属性情報の内容をあてはめて作成
したものである。コンテンツの属性情報がタグによって
区分され、タグの値が前後を＜タグ＞により挟まれてい
る。また、タグ名と、その値の文字列からコンテンツが
文書の場合と同じ方法で抽出した単語を使って、タグつ
き属性情報による概念ベースをあらかじめ作成してお
く。

【００５３】図９〜１０は、コンテンツが動画、静止
画、音楽等のマルチメディアコンテンツの場合の情報検
索処理の流れを示している。Ｓ１の検索質問文入力待ち
の開始状態からＳ２８の連想キーワードの特定までの処
理はコンテンツが文書の場合と同様である。すなわち、
図９〜１０の基本処理フローは図６の基本処理フローと
同様である。

【００５４】次に、その連想キーワード（Ｓ２８）を入
力データとして、タグつき属性情報による概念ベース
（Ｓ３０）を参照して、タグつき属性情報による概念ベ
ースとのマッチング処理を行う。このタグつき属性情報
による概念ベースとのマッチング処理（Ｓ３５）は、図
３に示すタグつき属性情報による概念ベースの縦軸の
「見出し語」の中に、連想キーワードと一致する見出し
語が存在するか否かを調べ（Ｓ３６）、連想キーワード
と一致する見出し語が存在した場合、その見出し語の出
現率とともに属性項目名（タグ名）を特定する（Ｓ３
７）。

【００５５】次に、そのタグ名を入力データとして、図
４に示すタグ名インデックス（Ｓ１０）のタグ名と照合
し（Ｓ３８）、タグ別属性情報インデックスファイル名
を得る（Ｓ３９）。次に、図５に示すタグ別属性情報イ
ンデックスファイル（Ｓ１３）のタグの値の中で、連想
キーワードを検索し（Ｓ４０）、連想キーワードと一致
した見出し語を含むコンテンツのコンテンツＩＤを得る
とともに、コンテンツＩＤごとにスコアを付与し（Ｓ４
１）、一次検索結果ファイルに格納する（Ｓ４２）。こ
のスコアは、タグつき属性情報による概念ベースで得た
出現率の値を付与する。

【００５６】次に、その連想キーワード（Ｓ２８）を入
力データとして、あらかじめデフォルトタグとして設定
しておいたタグの、図５に示すタグ別属性情報インデッ
クスファイル（Ｓ４６）のタグの値の中から、一致する
見出し語があるか否かを調べ（Ｓ４５）、一致する場合
はタグ名を特定し、タグ名からそのコンテンツＩＤを得
るとともに、出現頻度をスコアとして付与し（Ｓ４
７）、二次検索結果ファイルに格納する（Ｓ４８）。

【００５７】その後、すべての連想キーワードについて
処理したか否かを調べ（Ｓ４９）、未処理の連想キーワ
ードが存在する場合は、連想キーワードと、デフォルト
タグのタグ別属性情報インデックスファイルとのマッチ
ング処理（Ｓ４５）へもどる。以上をすべてのキーワー
ドについて処理したか否かを調べ（Ｓ４４）、処理した
場合は、一次検索結果の有無を調べる（Ｓ１８）。一次
検索結果がある場合は、二次検索結果の有無を調べ（Ｓ
２０）、両方ある場合は一次検索結果と二次検索結果の
論理積演算処理を行ない、検索結果ファイルに格納する
（Ｓ２１）。また、Ｓ２０で二次検索結果がない場合
は、一次検索結果を検索結果ファイルに格納する（Ｓ２
２）。また、Ｓ１８で一次検索結果がない場合は、二次
検索結果を検索結果ファイルに格納する（Ｓ３２）。

【００５８】なお、複数の一次検索結果が存在する場合
又は複数の二次検索結果が存在する場合、一次検索結果
同士又は二次検索結果同士の論理積演算処理を行い、そ
の結果得られたコンテンツＩＤを検索結果として得るよ
うにすることも可能である。

【００５９】その後、検索結果ファイルをスコアの高い
順にソーティングし（Ｓ２３）、検索結果を表示して
（Ｓ２４）、終了する（Ｓ５０）。

【００６０】

【実施例】

【実施例１】次に、図６のフローチャートにもとづい
て、コンテンツが文書の場合の具体的な実施例を説明す
る。まず、最初に、Ｓ２で利用者が検索質問文として
「ＮＴＴの言語処理の技術は？」という質問文を入力し
たとする。Ｓ３でその検索質問文について、形態素解析
処理を行ない、「の」「は」などの助詞等の付属語、お
よび「技術」などの意味的に特徴のない語を不要語とし
て除去し、「ＮＴＴ」、「言語処理」というキーワード
を抽出し、Ｓ４でそれらキーワードを一次記憶に保持す
る。その各キーワードを入力として以下の処理を行う。

【００６１】まず、「ＮＴＴ」というキーワードについ
て、タグつき属性情報による概念ベース（Ｓ６）の値か
ら、キーワードと一致する見出し語をさがす（Ｓ６）。

【００６２】また、キーワードのマッチング処理（Ｓ
５）は、そのタグつき属性情報による概念ベース（Ｓ
６）の縦軸の見出し語と、「ＮＴＴ」というキーワード
を照合し、キーワードと一致する見出し語が存在した場
合は、その見出し語の出現率の最も大きい属性項目（タ
グ名）、「所属」というタグ名を特定する。

【００６３】次に、ここで特定したタグ名「所属」を入
力として、あらかじめ作成しておいた図４のタグ名イン
デックス（Ｓ１０）を検索する（Ｓ９）。そのタグ名イ
ンデックスのタグ名と照合し、「所属」というタグ名に
対応するタグ別属性情報インデックスファイル名を得
る。

【００６４】次に、タグ別属性情報インデックスファイ
ルをあらかじめ作成しておき、「所属」タグについての
タグ別属性情報インデックスファイル（Ｓ１３）を検索
する（Ｓ１２）。ここで、図５に示すように、タグ別属
性情報インデックスファイルとは、タグごとに、タグ名
と、そのタグの値を成すすべての見出し語と、そのタグ
の値にその見出し語が含まれるコンテンツのコンテンツ
ＩＤの３つの要素の組を記述してある。この例では、そ
のタグの値の中に、元のキーワードである「ＮＴＴ」を
検索し、一致した見出し語を含むコンテンツのコンテン
ツＩＤを一次検索結果として得ることができる。

【００６５】このようにして、当初の検索質問文「ＮＴ
Ｔの言語処理の技術は？」という質問文の中の「ＮＴ
Ｔ」という単語から、＜著者＞の＜所属＞というコンテ
ンツの属性情報を抽出し、利用者の「論文の＜著者＞の
＜所属＞が「ＮＴＴ」である論文をさがしたい」という
意図を抽出して、それに該当するコンテンツＩＤを一次
検索結果として得ることができる。

【００６６】次に、「言語処理」というキーワードにつ
いては、Ｓ５のタグつき属性情報による概念ベースとの
マッチング処理において、タグつき属性情報による概念
ベースの縦軸の見出し語と、「言語処理」というキーワ
ードを照合すると、キーワードと一致する見出し語が存
在しなかったとする。その場合、Ｓ２５のキーワード連
想処理にとび、コーパスによる概念ベースあるいは国語
辞典による概念ベースを利用して、キーワードの連想処
理を行う。ここでは、「言語処理」から「形態素解析」
「構文解析」「機械翻訳」等の連想キーワードを得るこ
とができる。

【００６７】ここで、このように、Ｓ５のタグつき属性
情報による概念ベースとのマッチング処理で、キーワー
ドと一致する見出し語が存在しなかった場合は、そのキ
ーワードがコンテンツの属性情報の一つを規定する単語
ではなかったということであり、その場合、通常の国語
辞典による概念ベースやコーパスによる概念ベースを利
用して連想を行う。そして、コンテンツの属性情報では
なく、コンテンツの内容そのものを表す属性項目名をあ
らかじめデフォルトタグとして設定しておき、そのデフ
ォルトタグのタグ別属性情報インデックスファイルのタ
グの値を検索対象とする。この場合のデフォルトタグと
は、＜概要＞や＜本文＞である。

【００６８】この＜概要＞や＜本文＞タグのタグ別属性
情報インデックスファイルのタグの値を検索対象とし
て、元のキーワードである「言語処理」と、連想キーワ
ードである「形態素解析」「構文解析」「機械翻訳」な
どを検索し、一致した見出し語がタグの値に含まれてい
るコンテンツのコンテンツＩＤを二次検索結果として取
得し、格納する（Ｓ３２）。

【００６９】そして、一次検索結果として得たコンテン
ツＩＤと、二次検索結果として得たコンテンツＩＤの論
理積演算処理を行ない、その結果得られたコンテンツＩ
Ｄを最終的な検索結果ファイルに格納する。すなわち、
この場合、＜著者＞の＜所属＞が「ＮＴＴ」である論文
の中で、＜概要＞や＜本文＞の中に、「言語処理」やそ
の連想キーワード「形態素解析」、「構文解析」、「機
械翻訳」などの単語を含むデータのコンテンツＩＤを検
索結果として得ることができる。

【００７０】従来の概念検索方式は、「ＮＴＴ」と「言
語処理」を同等に扱い、その単語間の類似度を計算した
結果を、質問文の概念としていた。だが、この場合、
「ＮＴＴ」は単なる文書の属性情報の一つである。すな
わち、著者の所属を指している。「ＮＴＴ」と「言語処
理」の意味的な近さを計算したところで、その質問文の
概念を表すには漠然としているという問題点があった。
本発明によれば、利用者の検索要求の一つの意図情報と
して、コンテンツの属性情報を、具体的な属性項目（タ
グ）から抽出するので、検索質問文から、利用者の検索
意図を反映したコンテンツの属性項目（タグ）を特定す
ることによって、確度の高い検索結果を得ることができ
るという効果がある。

【００７１】

【実施例２】次に、図９〜１０のフローチャートにもと
づいて、コンテンツがマルチメディアコンテンツの場合
の具体的な実施例を説明する。まず、最初に、Ｓ２で利
用者が検索質問文として、「世界の劇場の写真は？」と
いう質問文を入力したとする。Ｓ３でその検索質問文に
ついて形態素解析処理を行ない、単語分割、品詞付与を
行なって、「の」「は」などの助詞等の付属語を除去
し、「世界」、「劇場」、「写真」というキーワードを
抽出する。Ｓ４でそれらキーワードを一次記憶に保存す
る。その各キーワードについて以下の処理を行う。

【００７２】まず、「世界」というキーワードについ
て、実施例１で説明したと同様に、タグつき属性情報に
よる概念ベース（Ｓ６）の縦軸の見出し語と、「世界」
というキーワードを照合し、キーワードと一致する見出
し語が存在した場合は、その見出し語の出現率の最も大
きい属性項目（タグ名）、例えば「概要」というタグ名
を特定する。ここで特定したタグ名「概要」を入力とし
て、あらかじめ作成しておいた図４のタグ名インデック
ス（Ｓ１０）を検索する（Ｓ９）。そのタグ名インデッ
クスのタグ名と照合し、「概要」というタグ名に対応す
るタグ別属性情報インデックスファイル名を得る。

【００７３】次に、タグ別属性情報インデックスファイ
ルをあらかじめ作成しておき、「概要」タグについての
タグ別属性情報インデックスファイル（Ｓ１３）を検索
する（Ｓ１２）。この例では、そのタグの値の中に、元
のキーワードである「世界」を検索し、一致した見出し
語を含むコンテンツのコンテンツＩＤを一次検索結果と
して得ることができる。

【００７４】次に、「写真」というキーワードについ
て、タグつき属性情報による概念ベースを参照して、キ
ーワードと一致する見出し語をさがす。その結果、キー
ワードと一致する見出し語が存在しなかった場合、Ｓ２
５にとび、キーワードの連想処理を行なう。

【００７５】キーワード連想処理（Ｓ２５）は、前記コ
ーパスによる概念ベースと、前記国語辞典による概念ベ
ースを利用し、キーワードを連想する。この例では、
「写真」というキーワードから、「メディア」と「静止
画」というキーワードが連想できる。

【００７６】次に、実施例１とは異なり、ここで再び、
その連想キーワード「メディア」と、前記タグつき属性
情報による概念ベースの縦軸の「見出し語」と、横軸の
「属性項目」の両方と照合して、連想キーワード「メデ
ィア」を検索する。その結果、属性項目＜メディア＞と
一致する。この横軸の「属性項目」を照合する際、下位
属性項目だけでなく、上位属性項目もすべて照合する。

【００７７】そこで、あらかじめ作成しておいた前記タ
グ別属性情報インデックスファイルの中で、＜メディア
＞タグのタグ別属性情報インデックスファイルの値（見
出し語）と、他の連想キーワードである「静止画」を照
合し、一致した見出し語を含むコンテンツのコンテンツ
ＩＤを検索結果として抽出する。なお、上位属性項目と
一致した場合は、その下位属性項目の値を検索対象とす
る。

【００７８】つまり、検索質問文「世界の劇場の写真は
？」の中の、「写真」という単語から、「メディア」と
いうコンテンツの属性項目を抽出する。このことは、利
用者が「コンテンツの＜メディア＞の種類が、「静止
画」であるコンテンツをさがしたい」という意図をもっ
ていて、それを抽出したことになる。その結果、タグ別
属性情報インデックスファイルを使って、それに該当す
るコンテンツＩＤを一次検索結果として得ることができ
る。

【００７９】次に、「劇場」というキーワードについて
説明する。実施例１と同様に、タグつき属性情報による
概念ベースを参照して、キーワードと一致する見出し語
をさがす。その結果、キーワードと一致する見出し語が
存在しなかったとすると、前述のキーワード「写真」と
同様に、Ｓ２５にとび、コーパスによる概念ベースと、
国語辞典による概念ベースを利用して、キーワードの連
想処理（Ｓ２５）を行う。ここでは、「シアター」、
「芝居小屋」、「コロシアム」などのキーワードが連想
できる。次に、これらの連想キーワードでタグつき属性
情報による概念ベースを検索する。しかし、一致する見
出し語も属性項目名も存在しない場合には、これら連想
キーワードは、コンテンツの属性情報に結びつく単語で
はなかったとする。したがって、あらかじめデフォルト
タグとして設定しておいた、内容そのものを表す属性項
目の、デフォルトタグのタグ別属性情報インデックスフ
ァイルの値（見出し語）を検索対象とする。この場合は
のデフォルトタグは、＜概要＞タグである。

【００８０】この＜概要＞タグの値の中から、元のキー
ワードである「劇場」と、連想キーワードである「シア
ター」、「芝居小屋」、「コロシアム」などを検索し、
一致した見出し語をもつコンテンツのコンテンツＩＤを
二次検索結果として抽出する。ここで、デフォルトタグ
の設定は自由であり、別のタグをデフォルトタグとして
設定してもよい。

【００８１】そして、一次検索結果として得たコンテン
ツＩＤと、二次検索結果として得たコンテンツＩＤの論
理積演算処理を行ない、その結果得られたコンテンツＩ
Ｄを最終的な検索結果ファイルに格納する。すなわち、
属性項目＜メディア＞に、連想キーワード「静止画」で
あるコンテンツとして得られた一次検索結果の中から、
属性項目＜概要＞に、検索キーワード「劇場」やその連
想キーワード「シアター」、「芝居小屋」、「コロシア
ム」を含んでいるコンテンツのコンテンツＩＤを取り出
して検索結果とすることになる。

【００８２】実施例１と同様に、検索質問文から、利用
者の検索意図を反映したコンテンツの属性項目（タグ）
を特定することによって、確度の高い検索結果を得るこ
とができるという効果がある。

【００８３】

【発明の効果】以上説明したように、従来技術のキーワ
ード検索方式には、利用者の検索要求が適切な検索条件
となれない欠点があり、全文検索方式には、キーワード
として指定した単語が文書の内容を必ずしも表すもので
なく、必要のない文書を検索してしまうという欠点があ
った。また、概念検索方式には、利用者の検索したい内
容の意図でしぼりこむことができなかったという欠点が
あった。

【００８４】本発明では、文書あるいは文書以外のマル
チメディアのコンテンツにおけるそれぞれのコンテンツ
の属性情報を、その性質を表わした自然言語で記述した
属性項目（タグ）によって区分されたタグつき属性情報
について、該タグつき属性情報中のテキストより抽出し
た単語で、不要語に該当しない個々の単語（見出し語）
と、各タグとの関連度を要素とした行列であるタグつき
属性情報による概念ベースを作成する。そして、対象コ
ンテンツを検索する際に、該タグつき属性情報による概
念ベースを参照し、検索の質問文中に含まれる見出し語
と関連度が高い属性項目（タグ）を特定する。このタグ
名を特定することは、検索質問文中のキーワードから、
利用者の検索要求の一つの意図情報として、コンテンツ
の属性情報を、具体的な属性項目（タグ）から抽出する
ことである。このように、検索質問文から、利用者の検
索意図を反映したコンテンツの属性項目（タグ）を特定
することによって、確度の高い検索結果を、すなわち、
利用者の意図に合ったコンテンツを得ることができると
いう効果がある。

【図面の簡単な説明】

【図１】文書データ、たとえば、論文についての属性項
目（タグ）の木構造の例を示す図である。

【図２】タグつき属性情報の例を示す図である。

【図３】タグつき属性情報による概念ベースの例を示す
図である。

【図４】タグ名インデックスの例を示す図である。

【図５】タグ別属性情報インデックスファイルの例を示
す図である。

【図６】本発明の情報検索処理を説明するフローチャー
トであって、コンテンツが文書の場合の処理フロー例を
示す図である。

【図７】マルチメディアコンテンツの属性項目（タグ）
の木構造の例を示す図である。

【図８】マルチメディアコンテンツについての、タグつ
き属性情報の例を示す図である。

【図９】本発明の情報検索処理を説明するフローチャー
トであって、コンテンツが文書以外のマルチメディアコ
ンテンツの場合の処理フロー例を示す図である。

【図１０】図９に続く処理フロー例を示す図である。

【符号の説明】

Ｓ１検索質問文入力待ちの開始状態Ｓ２キーボード等による検索質問文の入力処理Ｓ３検索質問文からキーワードを抽出するキーワード
抽出処理Ｓ４Ｓ３で抽出し一次記憶に抽出したキーワードＳ５タグつき属性情報による概念ベースとのマッチン
グ処理Ｓ６タグつき属性情報による概念ベースＳ７Ｓ６にキーワードが存在するか否かの有無を問う
分岐処理Ｓ８タグ名を特定する処理Ｓ９タグ名インデックスを参照する処理Ｓ１０タグ名インデックスＳ１１タグ別属性情報インデックスファイルを特定Ｓ１２タグ別属性情報インデックスファイルをキーワ
ードで検索する処理Ｓ１３タグ別属性情報インデックスファイルＳ１４コンテンツＩＤ獲得およびスコア付与処理Ｓ１５一次検索結果ファイルに格納処理Ｓ１６一致したタグについてすべて処理したか否かを
調べる処理Ｓ１７すべてのキーワードについて処理したか否かを
調べる処理Ｓ１８一次検索結果の有無を調べる処理Ｓ１９二次検索結果を検索結果とする処理Ｓ２０二次検索結果の有無を調べる処理Ｓ２１一次検索結果と二次検索結果の論理積演算処理Ｓ２２一次検索結果を検索結果とする処理Ｓ２３スコア順ソーティング処理Ｓ２４検索結果表示処理Ｓ２５キーワード連想処理Ｓ２６コーパスによる概念ベースＳ２７国語辞典による概念ベースＳ２８連想キーワードを特定Ｓ２９連想キーワードとデフォルトタグのタグ別属性
情報インデックスファイルとのマッチング処理Ｓ３０デフォルトタグのタグ別属性情報インデックス
ファイルＳ３１コンテンツＩＤ獲得およびスコア付与処理Ｓ３２二次検索結果ファイルに格納処理Ｓ３３すべてのキーワードを処理したか否かを調べる
処理Ｓ３４終了状態Ｓ３５タグつき属性情報による概念ベースとのマッチ
ング処理Ｓ３６連想キーワードが存在したか否かを調べる処理Ｓ３７タグ名を特定する処理Ｓ３８タグ名インデックスを参照する処理Ｓ３９タグ別属性情報インデックスファイル名を特定
する処理Ｓ４０タグ別属性情報インデックスファイルを連想キ
ーワードで検索する処理Ｓ４１コンテンツ獲得とスコア付与処理Ｓ４２一次検索結果ファイルに格納する処理Ｓ４３一致したタグについてすべて処理したか否かを
調べる処理Ｓ４４すべてのキーワードについて処理したか否かを
調べる処理Ｓ４５キーワードおよび連想キーワードとデフォルト
タグ別属性情報インデックスファイルとのマッチング処
理Ｓ４６デフォルトタグのタグ別属性情報インデックス
ファイルＳ４７コンテンツＩＤ獲得およびスコア付与処理Ｓ４８二次検索結果ファイルに格納処理Ｓ４９すべてのキーワードを処理したか否かを調べる
処理Ｓ５０終了状態

───────────────────────────────────────────────────── フロントページの続き (72)発明者並木育夫東京都新宿区西新宿二丁目１番１号エヌ・ティ・ティ・アドバンステクノロジ株式会社内 (72)発明者大山実東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者笠原要東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者加藤恒昭東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5B075 ND16 NK43 NK46 PP24 PR04 PR06 QM07 QM08

Claims

【特許請求の範囲】

【請求項１】文書あるいは文書以外のマルチメディア
のコンテンツ（以下、特許請求の範囲において「コンテ
ンツ」という。）におけるそれぞれのコンテンツの属性
情報を、その性質を表わした自然言語で記述した属性項
目（以下、特許請求の範囲において「タグ」という。）
によって区分されたタグつき属性情報について、該タグ
つき属性情報中のテキストより抽出した単語で、不要語
に該当しない個々の単語（以下、特許請求の範囲におい
て「見出し語」という。）と、各タグとの関連度を要素
とした行列であるタグつき属性情報による概念ベースを
作成し、対象コンテンツを検索する際に、該タグつき属
性情報による概念ベースを参照し、検索の質問文中に含
まれるキーワードと一致した見出し語が存在した場合、
当該見出し語と関連度が高いタグに係る属性情報を検索
することを特徴とする概念検索方式。
【請求項２】請求項１において、タグと見出し語との
関連度が、該見出し語が当該タグに出現する頻度を出現
率で記述したものであることを特徴とする概念検索方
式。
【請求項３】請求項１において、検索の質問文中に含
まれるキーワードと一致した見出し語が存在した場合、
当該見出し語と関連度が高いタグについて、タグ名イン
デックスファイルを検索して、該関連度が高いタグのタ
グ名からタグ別属性情報インデックスファイル名を取得
し、次に、該タグ別属性情報インデックスファイルから
該検索の質問文中に含まれるキーワードを検索し、当該
タグの値として該キーワードと一致した見出し語を含む
コンテンツのコンテンツＩＤを一次検索結果として得る
ことを特徴とする概念検索方式。
【請求項４】請求項３において、当該タグの値として
該キーワードと一致した見出し語を含むコンテンツを検
出できなかった場合は、該検索の質問文中に含まれるキ
ーワードに対して、コーパスをもとにして作成した概念
ベース、または国語辞典をもとにして作成した概念ベー
スを用いて、キーワードの連想処理を行い、当該タグの
値として当該連想キーワードと一致した見出し語を含む
コンテンツのコンテンツＩＤを二次検索結果として得る
ことを特徴とする概念検索方式。
【請求項５】異なるキーワードについて、請求項３に
おける一次検索結果と請求項４における二次検索結果の
両方が存在する場合、請求項３における複数の一次検索
結果が存在する場合又は請求項４における複数の二次検
索結果が存在する場合、それらの論理積演算処理を行
い、その結果得られたコンテンツＩＤを検索結果として
得ることを特徴とする概念検索方式。