JP2002183195A - 概念検索方式 - Google Patents

概念検索方式

Info

Publication number
JP2002183195A
JP2002183195A JP2000383189A JP2000383189A JP2002183195A JP 2002183195 A JP2002183195 A JP 2002183195A JP 2000383189 A JP2000383189 A JP 2000383189A JP 2000383189 A JP2000383189 A JP 2000383189A JP 2002183195 A JP2002183195 A JP 2002183195A
Authority
JP
Japan
Prior art keywords
tag
attribute information
search
content
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000383189A
Other languages
English (en)
Inventor
Mieko Kiyosue
三恵子 清末
Ikuo Namiki
育夫 並木
Minoru Oyama
実 大山
Kaname Kasahara
要 笠原
Tsuneaki Kato
恒昭 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Advanced Technology Corp
Nippon Telegraph and Telephone Corp
Original Assignee
NTT Advanced Technology Corp
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Advanced Technology Corp, Nippon Telegraph and Telephone Corp filed Critical NTT Advanced Technology Corp
Priority to JP2000383189A priority Critical patent/JP2002183195A/ja
Publication of JP2002183195A publication Critical patent/JP2002183195A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書あるいは文書以外のマルチメ
ディアのコンテンツを検索する情報検索方式において、
検索質問文から、利用者の検索意図を反映したコンテン
ツの属性項目(タグ)を特定することによって、確度の
高い検索が可能な、意図情報抽出による概念検索方式を
提供することにある。 【解決手段】 本発明による概念検索方式は、文
書あるいは文書以外のマルチメディアのコンテンツにお
けるそれぞれのコンテンツの属性情報を、その性質を表
わした自然言語で記述した属性項目(タグ)によって区
分されたタグつき属性情報について、該タグつき属性情
報中のテキストより抽出した単語で、不要語に該当しな
い個々の単語(見出し語)と、各タグとの関連度を要素
とした行列であるタグつき属性情報による概念ベースを
作成し、対象コンテンツを検索する際に、該タグつき属
性情報による概念ベースを参照し、検索の質問文中に含
まれる見出し語と関連度が高いタグに係る属性情報を検
索することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、意味的に構造化し
た属性項目(タグ)とキーワードとの関連度を用いた意
図情報抽出による概念検索方式に関する。すなわち、文
書および文書以外のマルチメディアコンテンツ情報検索
方式において、大量のマルチメディアコンテンツデータ
から必要なコンテンツを高速に検索したい場合に用い、
特に、自然言語で記述した検索質問文の中から、利用者
の検索要求の意図情報、すなわち検索したいコンテンツ
を絞り込むための情報を抽出することが可能な、文書お
よびマルチメディアコンテンツ情報の概念検索方式に関
するものである。
【0002】
【従来の技術】現在、インターネットの普及等にともな
い、様々な情報が電子媒体を通じて利用可能であり、膨
大な情報が生成され続けている。こうした背景から膨大
な情報の中から必要な情報を迅速にみつけだすことは至
難の技であり、様々な情報検索技術が研究されている。
【0003】こうした中で、テキスト検索についての従
来の検索方式としては、キーワード検索方式と全文検索
方式が一般的であるが、最近の新しい技術としては概念
検索方式がある。
【0004】キーワード検索方式は、指定した単語や文
字列をキーワードとし、文書に対してあらかじめ複数付
与しておいたキーワードと照合して、完全あるいは部分
的に一致したキーワードをもつ文書を検索結果として抽
出する検索方式である。指定した単語や文字列(キーワ
ード)を論理積(AND)、論理和(OR)、否定(N
OT)の演算子を用いて検索式を設定することが可能で
ある。
【0005】全文検索方式は、指定した単語や文字列を
キーワードとし、文書中のすべての文と照合して、その
文字列と完全に一致する文字列を含んでいる文書を検索
結果として抽出する検索方式である。文書中の任意の語
をキーワードとすることが可能である。
【0006】概念検索方式は、前記2つの検索方式が単
なる文字列の一致で照合するのに対し、検索条件を定め
るために指定されたキーワードの意味と、文書の意味の
近さを、概念ベースを用いて計算し、それにもとづいて
検索する方式である。概念ベースについては、国語辞典
などの辞書の語釈文に記述された定義単語の集合により
記述した概念ベースと、新聞記事文章や論文など大量の
文章を集めたコーパスにより記述した概念ベースとが使
用されている。
【0007】コーパスによる概念ベースについては、S
hutze,H.:「Dimensions of M
eaning, Proceedings of Su
percomputing 92, p.787−79
6 (1992) 」に記載のように、新聞記事文章や
論文など大量の文章を集めたコーパスにより記述した概
念ベースで、コーパスに含まれる個々の単語について、
その単語と一緒に現れる単語を共起語、その現れる度合
いを類似度として単語の概念を表わしたものである。例
えば、文書を単語が順番に並んだ単語列と見なし、個々
の単語に対し前後50単語以内にあらわれる単語を共起
語、共起語の出現頻度を類似度として概念ベースを構成
するものである。
【0008】また、国語辞典をもとにして概念ベースを
自動作成する方法は、「類似判別利用データ精練方法お
よびこの方法を実施する装置」(特願平6−09601
1松澤、笠原、湯川、石川)に記載のように、国語辞典
などの辞書の見出し語に対して語義文中の単語を共起
語、共起語の出現頻度を類似度として、見出し語に対す
る概念を作成し、さらに作成された概念ベース中の単語
と共起語、共起語同士の関連性を考慮し、個々の概念の
品質を高める精錬を実施するものである。
【0009】これらの概念ベースでは、検索条件(検索
式)を定めるために指定されたキーワードの集合も、検
索対象文書も、それら概念ベースを用いて、一つの空間
にそれぞれ概念として配置される。そして、言葉と言葉
の意味の近さを、0から1までの数値(類似度)で表す
方法によって表現している。検索条件を定めるために指
定されたキーワード、検索対象文書中の単語、それらす
べての間の類似度が利用可能である。それによって、最
も意味の近い概念を有するコンテンツを検索結果として
抽出することができる。
【0010】
【発明が解決しようとする課題】キーワード検索方式に
ついては、キーワードの設定が利用者の意識と必ずしも
一致しない、利用者の検索要求を適切な検索条件(検索
式)として表現することが難しいなどの欠点があった。
また、全文検索方式については、キーワードを照合する
範囲が広がるので検索漏れが少なくなるが、指定した単
語や文字列が文書中に存在しても、それが文書の内容と
必ずしも対応するものではないため、必要のない文書も
検索結果として抽出してしまうなどの欠点があった。
【0011】これらの欠点を解決する手法として考案さ
れた概念検索方式については、元のキーワードだけでな
く意味が類似の単語を含めて検索するので、同様の内容
の文献を抽出することに関してはさらに検索漏れが少な
くなるが、キーワードの意味と文書の意味の近さを計算
する際、付属語などの不要語を除くすべての単語を同等
に扱って計算するため、それぞれの単語間の意味的な類
似度の計算により概念としての内容が把握できても、そ
れは利用者の検索したい内容は含まれるものの、その内
容と比べると広い概念となってしまい、不要な情報も検
索結果として抽出してしまうという欠点があった。
【0012】そこで、本発明の目的は、キーワード検索
方式の、利用者の検索要求を適切な検索条件として表現
することが難しいという欠点、全文検索方式の、指定し
たキーワードが文書の内容を必ずしも表すものでなく、
必要のない文書を検索してしまうという欠点、概念検索
方式の、利用者の検索したい内容は含まれるものの、そ
の内容と比べると広い概念となってしまい、不要な情報
も検索結果として抽出してしまうという欠点、すなわ
ち、必ずしも利用者の検索したい内容の意図でしぼりこ
むことができなかったという欠点を解決し、検索質問文
から、利用者の検索要求の一つの意図情報として、コン
テンツの属性情報を抽出することにより、確度の高い検
索が可能な、意図情報抽出による概念検索方式を提供す
ることにある。
【0013】
【課題を解決するための手段】上記課題を解決するため
に、本発明による概念検索方式は、文書あるいは文書以
外のマルチメディアのコンテンツ(文書と文書以外のマ
ルチメディアのコンテンツを含む。以下、本明細書の詳
細な説明において「コンテンツ」という。)におけるそ
れぞれのコンテンツの属性情報を、その性質を表わした
自然言語で記述した属性項目(以下、本明細書の詳細な
説明において「タグ」という。)によって区分されたタ
グつき属性情報について、該タグつき属性情報中のテキ
ストより抽出した単語で、不要語に該当しない個々の単
語(以下、本明細書の詳細な説明において「見出し語」
という。)と、各タグとの関連度を要素とした行列であ
るタグつき属性情報による概念ベースを作成し、対象コ
ンテンツを検索する際に、該タグつき属性情報による概
念ベースを参照し、検索の質問文中に含まれるキーワー
ドと一致した見出し語が存在した場合、当該見出し語と
関連度が高いタグに係る属性情報を検索することを特徴
とする。
【0014】本発明では、あらかじめ、自然言語で記述
したタグによって区分されたタグつき属性情報を木構造
に構造化して用いる(図1参照、詳細は後述する)。こ
のタグつき属性情報は決して特殊な情報ではなく、テキ
ストやSGMLのように普及している形式のデータであ
る。そのタグつき属性情報を用い、タグ名とその値(タ
グに係る属性情報の内容、図2でタグとタグで囲まれた
文字列)に含まれる見出し語との関連度をもとにして、
タグつき属性情報による概念ベース(図3参照、詳細は
後述する)を作成しておく。すなわち、タグつき属性情
報中のテキストより単語を抽出し、不要語に該当しない
個々の見出し語と個々のタグ名の関連度を要素とした行
列であるタグつき属性情報による概念ベースを作成して
おく。タグつき属性情報より検索対象のコンテンツを検
索する際に、タグつき属性情報をによる概念ベースを参
照し、検索質問文中に含まれるキーワードと一致した見
出し語が存在した場合、当該見出し語と関連度の高い属
性項目(タグ)のタグ名を特定する。その結果得られた
タグ名は、利用者の検索要求の一つの意図情報であり、
検索したいコンテンツを絞り込むための情報である。本
発明は、それを抽出することによって、数多くの検索対
象コンテンツの中から利用者が目的とするコンテンツを
効率的に選択できることを最も主要な特徴とする。
【0015】利用者がキーボードなどの入力手段によ
り、検索質問文を入力する。その中から、キーワードを
抽出する際に、形態素解析処理により単語分割、品詞付
与を行ない、さらに付属語や、意味的に特徴のない語、
形式的な語などを、あらかじめ不要語ファイルに記録蓄
積させておき、不要語ファイルの不要語データと照合し
て、不要語を除去する。
【0016】従来の技術では、まず、そのほとんどが、
意味的に構造化されたタグつき属性情報を検索対象にし
ていない。タグつき属性情報を検索対象としていたとし
ても、そのタグは単なる文書管理上使用するための文字
列でしかなく、タグ名をコンテンツの属性情報について
の意味をもった属性項目名として設定し、タグ名自身を
検索対象にする方法はとっていなかった。次に、コンテ
ンツの属性情報についての属性項目名、すなわちここで
いうタグ名とその値との共起関係を記述した、概念ベー
スを作成し、利用する方法は、従来の技術にはないこと
である。また、コンテンツの属性情報についてのタグ名
とその値との共起関係を利用して、検索質問文の単語か
ら、タグ名を特定するという方法を利用していない。さ
らに、利用者の検索要求から、コンテンツの属性情報に
結びつく、利用者の意図情報を抽出して、大量のコンテ
ンツから利用者の要求にそった、検索対象のしぼりこみ
も行っていなかった。
【0017】本発明では、まず、あらかじめ、自然言語
で記述したタグによって構造化したタグつき属性情報を
用い、タグ名とその値となる見出し語との関連度をもと
にして、タグつき属性情報による概念ベースを作成す
る。
【0018】また、概念ベースを作成するにあたり、本
発明による情報検索方式は、タグと見出し語との関連度
としては、当該見出し語が当該タグに出現する頻度を出
現率で記述したものを用いることを特徴とする。
【0019】このタグつき属性情報による概念ベースの
作成方法を次に示す。タグ名と、その値(タグとタグで
囲まれた文字列、すなわち当該タグに係る属性情報の内
容)から見出し語を抽出し、両者の共起関係、すなわ
ち、あるタグの値として出現する見出し語とその出現頻
度を表にする。その出現頻度から、所定の計算方法によ
り出現率を計算する。これにより、ある見出し語がある
タグ名に出現する度合いを記した表が得られる。これ
を、タグつき属性情報による概念ベースとする。
【0020】関連度として当該見出し語が当該タグに出
現する頻度を出現率で記述したものを用いることによ
り、関連度を定量的に把握できるので、検索対象である
概念的に近いコンテンツを効率よく検出できる。
【0021】また、本発明による概念検索方式は、検索
の質問文中に含まれるキーワードと一致した見出し語が
存在した場合、当該見出し語と関連度が高いタグについ
て、タグ名インデックスファイル(図4参照、詳細は後
述する)を検索して、該関連度が高いタグのタグ名から
タグ別属性情報インデックスファイル名を取得し、次
に、該タグ別属性情報インデックスファイル(図5参
照、詳細は後述する)から該検索の質問文中に含まれる
キーワードを検索し、当該タグの値として該キーワード
と一致した見出し語を含むコンテンツのコンテンツID
を一次検索結果として得ることを特徴とする。
【0022】すなわち、タグ名インデックスファイルを
作成する。このファイルは、すべてのタグの中で、下位
属性項目をもたない、最も下位となる属性項目、すなわ
ちタグの値をもつタグのみを使って作成される。タグの
値とは、タグとタグで囲まれた文字列、すなわち当該タ
グの内容をいう。タグ名インデックスファイルの内容と
して、各タグとそれに対応したタグ名及びタグ別属性情
報インデックスファイル名の組が記述される。
【0023】さらに、タグ別属性情報インデックスファ
イルを作成しておく。このファイルは、タグごとに、タ
グ名と、その値を成すすべての見出し語と、そのタグの
値にその見出し語が含まれるコンテンツのコンテンツI
Dの3つの要素の組を対応させたものである。
【0024】次に、検索質問文から抽出したキーワード
とタグつき属性情報による概念ベースの見出し語とを照
合する。具体的には、タグつき属性情報による概念ベー
スの「見出し語」列の中から、キーワードと一致する見
出し語をさがし、一致した見出し語があれば、その見出
し語の出現率とともにタグ名を得る。出現率が高いとい
うことは、キーワードがそのタグの属性情報として、頻
繁に出現するということであり、検索質問文の中に、該
当するタグの値に含まれる見出し語が存在することを規
定している。すなわち、それが利用者の検索要求の一つ
であり、意図情報である。
【0025】次に、ここで特定できたタグについての、
タグ別属性情報インデックスファイルの値の見出し語の
中に、元の検索質問文のキーワードが含まれているか否
かを調べる。キーワードと一致した見出し語が存在した
場合は、そのタグがその見出し語を値としてもつコンテ
ンツのコンテンツIDを一次検索結果として得る。これ
は、検索質問文のキーワードからコンテンツの属性情報
中の一つの属性項目(タグ)を特定することによって、
確度の高い検索結果を得ることができるということであ
る。
【0026】また、本発明による概念検索方式は、当該
タグの値として該キーワードと一致した見出し語を含む
コンテンツを検出できなかった場合は、該検索の質問文
中に含まれるキーワードに対して、コーパスをもとにし
て作成した概念ベース、または国語辞典をもとにして作
成した概念ベースを用いて、キーワードの連想処理を行
い、当該タグの値として当該連想キーワードと一致した
見出し語を含むコンテンツのコンテンツIDを二次検索
結果として得ることを特徴とする。
【0027】すなわち、特定したタグのタグ別属性情報
インデックスファイルの値の中に、元のキーワードと一
致した見出し語が存在しなかったときのため、国語辞典
をもとにして作成した概念ベースあるいはコーパスをも
とにして作成した概念ベースを、あらかじめ作成してお
く。これらの概念ベースをもとにして、検索キーワード
から新たなキーワードを連想させることができる。ここ
で言う概念ベースとは、ある単語とその単語がもつ属性
(特徴概念)と、重要度の対を複数付与した属性集合を
記憶したデータである。
【0028】そして、それぞれの概念ベースにより、あ
る単語とある単語の類似性をそれぞれの属性集合の一致
する度合いにより判別する技術、すなわち類似性判別技
術を用いて、類似している単語を抽出し、それを連想キ
ーワードとして出力する。概念ベースを用いて2つの単
語の類似度を計算する方法には、例えば「類似性判別装
置」(特願平4−251513 笠原、松澤)に記載さ
れているように、2つの単語に対して概念ベースを参照
し、同じ属性項目における出現頻度を計算し、2つの単
語が類似している度合いである類似度を計算する方法が
ある。例えば、2つの単語の等しい属性項目における出
現頻度を掛け合わせ、その結果を加算し、2つの単語そ
れぞれの属性項目における出現頻度の二乗和の平方根で
除算した値が類似度として用いられている。これは、2
つの単語の概念を多次元空間上のベクトルであると見な
した場合、2つのベクトルのなす角度の余弦を表わして
いる。
【0029】このキーワード連想処理は、本文、概要等
の内容そのものを表すコンテンツの属性情報(コンテン
ツの内容を説明する付属的な属性情報を除く)に係るキ
ーワードから、その国語辞典的意味分類による意味の単
語として類義語を連想すること、あるいは最近のその単
語の語用論的情報や頻繁に共起する単語を連想すること
ができるということに基づくものである。
【0030】さらに、あらかじめ、コンテンツの属性情
報のうち内容そのものを表す属性情報に係るタグをデフ
ォルトタグとして定めておく。たとえば、文書データの
場合は「本文」タグであり、マルチメディアコンテンツ
の場合は「概要」タグである。そのデフォルトタグのタ
グ別属性情報インデックスファイルの値(当該タグに係
る属性情報の内容)を検索対象としてキーワードおよび
連想キーワードを検索し、キーワード或は連想キーワー
ドと一致した見出し語が値に含まれているコンテンツの
コンテンツIDを二次検索結果として得る。
【0031】また、本発明による情報検索方式は、異な
るキーワードについて、一次検索結果と二次検索結果の
両方が存在する場合、複数の一次検索結果が存在する場
合又は複数の二次検索結果が存在する場合、それらの論
理積演算処理を行い、その結果得られたコンテンツID
を検索結果として得ることを特徴とする。
【0032】この一次検索結果と二次検索結果の論理
積、複数の一次検索結果の論理積又は複数の二次検索結
果の論理積を求める演算処理により、検索結果をしぼり
こむことができる。したがって、これにより、本発明の
目的である、利用者の検索要求の一つの意図である、コ
ンテンツの属性情報で検索結果をしぼりこむことができ
るようになる。
【0033】
【発明の実施の形態】図1は、本発明に係るコンテンツ
の属性項目(タグ)構造の例を示している。コンテンツ
としては論文のテキストデータを想定したもので、その
属性情報を属性項目(タグ)で規定し、木構造になって
いる。自然言語で記述した各タグは、階層的に構造化さ
れている。すなわち、コンテンツの属性情報はタグによ
り区分される。論文では、図1のように、<前付け>、
<本体>、<後付け>というように自然言語で属性項目
を規定することができる。また、<前付け>には<コン
テンツID>、<タイトルグループ>、<著者グループ
>などが下位属性項目として規定できる。さらに、<著
者グループ>の下位属性項目として、<著者名>、<所
属>、<連絡先>、またその下位属性項目として<電話
番号>、<E−mail>などの属性を階層的に構造的
に規定することができる。最下位の属性項目のみ、タグ
の値として、属性情報をとることができる。図1ではこ
れら最下位の属性項目は四角で囲んだタグ以外のものが
該当する。このような階層構造になっているから、論文
の属性情報をタグの値(内容)として構造化することが
できる。ここで、タグ名が自然言語で記述されていない
場合であっても、タグ名の種類は限定されているので、
あらかじめ、タグ名と対応する自然言語の対応表を作成
して変換すれば対応可能である。これによって、例え
ば、HTMLやSGMLのような一般的な(テキスト以
外の)タグつき属性情報も利用できる。
【0034】図2は、タグつき属性情報の例である。図
1で規定したタグに、その値、すなわち属性情報の内容
をあてはめて作成したものである。コンテンツの属性情
報がタグによって区分され、タグの値が前後を<タグ>
により挟まれている。図2の例は、論文データについて
の例である。たとえば、<タイトル>タグには、「日英
変換技術と意味辞書」がタグの値として存在する。ま
た、<タイトルグループ>タグには値は存在しない。こ
のように、タグつき属性情報を用いて、タグとその値の
対応関係が明確化できる。
【0035】図3(a)〜図3(c)は、タグつき属性
情報による概念ベースの例を示している。その構築方法
を、図3(a)〜図3(c)をもとに説明する。最初
に、図1のような自然言語で記述したタグを規定する。
これを使って、論文の属性情報について、各タグの値を
あてはめた図2のようなタグつき属性情報を作成する。
このようなデータを複数個もつデータの集合があると
き、各タグの値である文字列を、形態素解析して単語分
割し、付属語や形式的な意味のない語などあらかじめ定
めた不要語を除去し、見出し語を抽出する。不要語は予
め不用語ファイルに記録蓄積されており、各単語を不用
語ファイルの不用語データと照合することにより不要語
を除去できる。
【0036】図3(a)に示すようにその見出し語を縦
軸に並べ、属性項目名を横軸に並べる。そして、キーワ
ードになり得る各見出し語がそれぞれの属性項目にタグ
の値として出現する出現頻度(α〜ω)をカウントし、
その数値を入れる。このようにして、各見出し語に対し
て出現頻度をカウントすることにより、M行N列の行列
が得られる。α〜ωに具体的な値を入れたものを、初期
の概念ベースとする。このような初期のタグつき属性情
報による概念ベースを図3(b)に示す。
【0037】さらに、キーワードになり得る各見出し語
が、どの属性項目に出現しているかを出現率で表わす。
図3(b)中の「日英変換技術」という見出し語が各属
性項目に出現する頻度をα1〜αnとするとき、見出し語
1が属性項目B1に出現する度合い(Xα1)を次のよ
うに求める。
【0038】たとえば、α1=1、αn-1=1、αn=1
で、他はすべて0とのき、Xα1=0.33、Xαn-1
0.33、Xαn=0.33となる。また、見出し語A3
について、また、γ3=10で、他はすべて0のとき、
Xγ3=1となる。このようにして求めた結果を図3
(c)に示す。すなわち、一行の中での出現頻度の総和
を計算し、その総和で各頻度を割った値を出現率とす
る。この出現率は0から1の値で表される。ある見出し
語とある属性項目の関連度を、この出現率で表し、特定
の属性項目(タグ)にしか出現しない見出し語は、その
属性項目について出現率が1となる。また、一つの見出
し語がどの属性項目にも出現するような場合は、それら
の出現率は0に近い値に下がることになる。また、これ
らの値は属性項目の有効性(有意差)を反映した調整値
をかけあわせてもよい。このようにして得た図3(c)
に示すような値をもつテーブルを、タグつき属性情報に
よる概念ベースとする。
【0039】図4はタグ名インデックスの例である。タ
グとタグ別属性情報インデックスファイルを関連付けた
テーブルである。その作成方法を次に示す。ここで使用
するタグの中で、それ以上、下位属性項目をもたない、
最も下位となる属性項目、すなわち、タイトル、英字タ
イトル、著者名、経歴などについて、各タグに対応した
タグ別属性情報インデックスファイル名の組を記述して
おく。このようになっているため、タグ名が特定されれ
ば、このタグ名インデックスにより、タグ別属性情報イ
ンデックスファイルを特定することができる。
【0040】図5はタグ別属性情報インデックスファイ
ルの例である。これは、最下位属性項目のタグについ
て、タグごとに、タグ名と、その値となるすべての見出
し語と、その見出し語が含まれるコンテンツのコンテン
ツIDの3つの要素を対応させたテーブルである。図5
はタグ名が「所属」の場合のタグの値とコンテンツID
の例を示す。このようになっているから、タグ名が特定
されれば、キーワードにより、具体的なコンテンツID
を得ることができる。
【0041】図6は本発明の概念検索処理を説明するフ
ローチャートで、コンテンツが文書の場合のフローチャ
ートの例である。図6において処理ステップをS1〜S
34で示す。ただし、S4、S28はキーワード、S
6、S26、S27はデータベース、S10、S13、
S30はファイルを示し、処理ステップとは異なる。ま
ず、文書および文書以外のマルチメディアコンテンツ情
報検索方式において、検索質問文入力待ちの開始状態
(S1)より、利用者がキーボードなどの入力手段によ
り検索質問文を入力する(S2)と、その検索質問文に
ついて形態素解析処理を行なって単語分割、品詞付与を
行ない、付属語や、意味的に特徴のない単語、形式的な
単語などあらかじめ定めておいた不用語ファイルの不要
語データと照合して、不要語を除去し、キーワード(S
4)を抽出する(S3)。キーワード(S4)は一次記
憶に保持される。
【0042】抽出された各キーワードを1つずつ入力デ
ータとして、タグつき属性情報による概念ベース(S
6)を参照して、タグつき属性情報による概念ベースと
のマッチング処理を行う。このタグつき属性情報による
概念ベースとのマッチング処理(S5)では、図3に示
すタグつき属性情報による概念ベースの縦軸の「見出し
語」の中に、キーワードと一致する見出し語が存在する
か否かを調べ(S7)、キーワードと一致する見出し語
が存在した場合、その見出し語の出現率とともに属性
(タグ名)を特定する(S8)。
【0043】次に、特定されたタグ名を入力データとし
て、図4に示すタグ名インデックス(S10)のタグ名
と照合し(S9)、タグ別属性情報インデックスファイ
ル名を得る(S11)。そして次に、図5に示すタグ別
属性情報インデックスファイル(S13)のタグの値の
中で、キーワードを検索し(S12)、キーワードと一
致した見出し語を含むコンテンツのコンテンツIDを得
るとともに、コンテンツIDごとにスコアを付与し(S
14)、一次検索結果ファイルに格納する(S15)。
このスコアは、タグつき属性情報による概念ベースで得
た出現率の値を付与する。
【0044】一方、S7で、キーワードが存在しなかっ
た場合は、Noに進み、そのキーワードについては、コ
ーパスによる概念ベース(S26)、あるいは国語辞典
による概念ベース(S27)を利用して、キーワードの
連想処理を行い(S25)、連想キーワードを得る(S
28)。
【0045】次に、その連想キーワード(S28)を入
力データとして、あらかじめデフォルトタグとして設定
しておいたタグの、図5に示すタグ別属性情報インデッ
クスファイル(S30)のタグの値の中から、連想キー
ワードと一致する見出し語があるか否かを調べ(S2
9)、一致する見出し語が存在した場合はタグ名を特定
し、タグ名からそのコンテンツIDを得るとともに、出
現頻度をスコアとして付与し(S31)、二次検索結果
ファイルに格納する(S32)。
【0046】その後、すべての連想キーワードについて
処理したか否かを調べ(S33)、未処理の連想キーワ
ードが存在する場合は、連想キーワードと、デフォルト
タグのタグ別属性情報インデックスファイルとのマッチ
ング処理(S29)へもどる。以上をすべてのキーワー
ドについて処理したか否かを調べ(S17)、処理した
場合は、一次検索結果の有無を調べる(S18)。一次
検索結果がある場合は、二次検索結果の有無を調べ(S
20)、両方ある場合は一次検索結果と二次検索結果の
論理積演算処理を行ない、検索結果ファイルに格納する
(S21)。また、S20で二次検索結果がない場合
は、一次検索結果を検索結果ファイルに格納する(S2
2)。また、S18で一次検索結果がない場合は、二次
検索結果を検索結果ファイルに格納する(S32)。
【0047】なお、複数の一次検索結果が存在する場合
又は複数の二次検索結果が存在する場合、一次検索結果
同士又は二次検索結果同士の論理積演算処理を行い、そ
の結果得られたコンテンツIDを検索結果として得るよ
うにすることも可能である。
【0048】その後、検索結果ファイルをスコアの高い
順にソーティングし(S23)、検索結果を表示して
(S24)、終了する(S34)。
【0049】次に、論文などの文書データだけでなく、
動画、静止画、音楽等のマルチメディアコンテンツを対
象とした情報検索方式について説明する。
【0050】まず、図7で、マルチメディアコンテンツ
のための属性項目(タグ)の木構造の例を説明する。構
造的には、図1と同様、属性項目(タグ)で属性情報を
規定し、木構造となっている。マルチメディアのコンテ
ンツにおいても、テキスト情報を用いて、その属性情報
に、<前付け>、<本体>の属性項目を規定することが
できる。さらに、その下位属性項目として、<タイトル
グループ>、<メディアグループ>、<分類グループ
>、<制作者グループ>、<概要>などの属性項目が規
定され、<メディアグループ>には、<メディア>、<
ファイル形式>、<ファイルサイズ>などの属性項目を
階層的に構造的に規定することができる。すなわち、コ
ンテンツの属性情報はタグにより区分される。
【0051】また、図1と同様に、最下位の属性項目の
み、タグの値をとることができる。このようにして、マ
ルチメディアコンテンツの属性情報を、タグの内容とし
て構造化できる。また、この属性項目に、図1で示した
属性項目も付け加えて、統一的に、マルチメディアの属
性項目(タグ)として規定することもできる。
【0052】図8は、マルチメディアコンテンツについ
ての、タグつき属性情報の例である。図7で規定したタ
グに、その値すなわち属性情報の内容をあてはめて作成
したものである。コンテンツの属性情報がタグによって
区分され、タグの値が前後を<タグ>により挟まれてい
る。また、タグ名と、その値の文字列からコンテンツが
文書の場合と同じ方法で抽出した単語を使って、タグつ
き属性情報による概念ベースをあらかじめ作成してお
く。
【0053】図9〜10は、コンテンツが動画、静止
画、音楽等のマルチメディアコンテンツの場合の情報検
索処理の流れを示している。S1の検索質問文入力待ち
の開始状態からS28の連想キーワードの特定までの処
理はコンテンツが文書の場合と同様である。すなわち、
図9〜10の基本処理フローは図6の基本処理フローと
同様である。
【0054】次に、その連想キーワード(S28)を入
力データとして、タグつき属性情報による概念ベース
(S30)を参照して、タグつき属性情報による概念ベ
ースとのマッチング処理を行う。このタグつき属性情報
による概念ベースとのマッチング処理(S35)は、図
3に示すタグつき属性情報による概念ベースの縦軸の
「見出し語」の中に、連想キーワードと一致する見出し
語が存在するか否かを調べ(S36)、連想キーワード
と一致する見出し語が存在した場合、その見出し語の出
現率とともに属性項目名(タグ名)を特定する(S3
7)。
【0055】次に、そのタグ名を入力データとして、図
4に示すタグ名インデックス(S10)のタグ名と照合
し(S38)、タグ別属性情報インデックスファイル名
を得る(S39)。次に、図5に示すタグ別属性情報イ
ンデックスファイル(S13)のタグの値の中で、連想
キーワードを検索し(S40)、連想キーワードと一致
した見出し語を含むコンテンツのコンテンツIDを得る
とともに、コンテンツIDごとにスコアを付与し(S4
1)、一次検索結果ファイルに格納する(S42)。こ
のスコアは、タグつき属性情報による概念ベースで得た
出現率の値を付与する。
【0056】次に、その連想キーワード(S28)を入
力データとして、あらかじめデフォルトタグとして設定
しておいたタグの、図5に示すタグ別属性情報インデッ
クスファイル(S46)のタグの値の中から、一致する
見出し語があるか否かを調べ(S45)、一致する場合
はタグ名を特定し、タグ名からそのコンテンツIDを得
るとともに、出現頻度をスコアとして付与し(S4
7)、二次検索結果ファイルに格納する(S48)。
【0057】その後、すべての連想キーワードについて
処理したか否かを調べ(S49)、未処理の連想キーワ
ードが存在する場合は、連想キーワードと、デフォルト
タグのタグ別属性情報インデックスファイルとのマッチ
ング処理(S45)へもどる。以上をすべてのキーワー
ドについて処理したか否かを調べ(S44)、処理した
場合は、一次検索結果の有無を調べる(S18)。一次
検索結果がある場合は、二次検索結果の有無を調べ(S
20)、両方ある場合は一次検索結果と二次検索結果の
論理積演算処理を行ない、検索結果ファイルに格納する
(S21)。また、S20で二次検索結果がない場合
は、一次検索結果を検索結果ファイルに格納する(S2
2)。また、S18で一次検索結果がない場合は、二次
検索結果を検索結果ファイルに格納する(S32)。
【0058】なお、複数の一次検索結果が存在する場合
又は複数の二次検索結果が存在する場合、一次検索結果
同士又は二次検索結果同士の論理積演算処理を行い、そ
の結果得られたコンテンツIDを検索結果として得るよ
うにすることも可能である。
【0059】その後、検索結果ファイルをスコアの高い
順にソーティングし(S23)、検索結果を表示して
(S24)、終了する(S50)。
【0060】
【実施例】
【実施例1】次に、図6のフローチャートにもとづい
て、コンテンツが文書の場合の具体的な実施例を説明す
る。まず、最初に、S2で利用者が検索質問文として
「NTTの言語処理の技術は?」という質問文を入力し
たとする。S3でその検索質問文について、形態素解析
処理を行ない、「の」「は」などの助詞等の付属語、お
よび「技術」などの意味的に特徴のない語を不要語とし
て除去し、「NTT」、「言語処理」というキーワード
を抽出し、S4でそれらキーワードを一次記憶に保持す
る。その各キーワードを入力として以下の処理を行う。
【0061】まず、「NTT」というキーワードについ
て、タグつき属性情報による概念ベース(S6)の値か
ら、キーワードと一致する見出し語をさがす(S6)。
【0062】また、キーワードのマッチング処理(S
5)は、そのタグつき属性情報による概念ベース(S
6)の縦軸の見出し語と、「NTT」というキーワード
を照合し、キーワードと一致する見出し語が存在した場
合は、その見出し語の出現率の最も大きい属性項目(タ
グ名)、「所属」というタグ名を特定する。
【0063】次に、ここで特定したタグ名「所属」を入
力として、あらかじめ作成しておいた図4のタグ名イン
デックス(S10)を検索する(S9)。そのタグ名イ
ンデックスのタグ名と照合し、「所属」というタグ名に
対応するタグ別属性情報インデックスファイル名を得
る。
【0064】次に、タグ別属性情報インデックスファイ
ルをあらかじめ作成しておき、「所属」タグについての
タグ別属性情報インデックスファイル(S13)を検索
する(S12)。ここで、図5に示すように、タグ別属
性情報インデックスファイルとは、タグごとに、タグ名
と、そのタグの値を成すすべての見出し語と、そのタグ
の値にその見出し語が含まれるコンテンツのコンテンツ
IDの3つの要素の組を記述してある。この例では、そ
のタグの値の中に、元のキーワードである「NTT」を
検索し、一致した見出し語を含むコンテンツのコンテン
ツIDを一次検索結果として得ることができる。
【0065】このようにして、当初の検索質問文「NT
Tの言語処理の技術は?」という質問文の中の「NT
T」という単語から、<著者>の<所属>というコンテ
ンツの属性情報を抽出し、利用者の「論文の<著者>の
<所属>が「NTT」である論文をさがしたい」という
意図を抽出して、それに該当するコンテンツIDを一次
検索結果として得ることができる。
【0066】次に、「言語処理」というキーワードにつ
いては、S5のタグつき属性情報による概念ベースとの
マッチング処理において、タグつき属性情報による概念
ベースの縦軸の見出し語と、「言語処理」というキーワ
ードを照合すると、キーワードと一致する見出し語が存
在しなかったとする。その場合、S25のキーワード連
想処理にとび、コーパスによる概念ベースあるいは国語
辞典による概念ベースを利用して、キーワードの連想処
理を行う。ここでは、「言語処理」から「形態素解析」
「構文解析」「機械翻訳」等の連想キーワードを得るこ
とができる。
【0067】ここで、このように、S5のタグつき属性
情報による概念ベースとのマッチング処理で、キーワー
ドと一致する見出し語が存在しなかった場合は、そのキ
ーワードがコンテンツの属性情報の一つを規定する単語
ではなかったということであり、その場合、通常の国語
辞典による概念ベースやコーパスによる概念ベースを利
用して連想を行う。そして、コンテンツの属性情報では
なく、コンテンツの内容そのものを表す属性項目名をあ
らかじめデフォルトタグとして設定しておき、そのデフ
ォルトタグのタグ別属性情報インデックスファイルのタ
グの値を検索対象とする。この場合のデフォルトタグと
は、<概要>や<本文>である。
【0068】この<概要>や<本文>タグのタグ別属性
情報インデックスファイルのタグの値を検索対象とし
て、元のキーワードである「言語処理」と、連想キーワ
ードである「形態素解析」「構文解析」「機械翻訳」な
どを検索し、一致した見出し語がタグの値に含まれてい
るコンテンツのコンテンツIDを二次検索結果として取
得し、格納する(S32)。
【0069】そして、一次検索結果として得たコンテン
ツIDと、二次検索結果として得たコンテンツIDの論
理積演算処理を行ない、その結果得られたコンテンツI
Dを最終的な検索結果ファイルに格納する。すなわち、
この場合、<著者>の<所属>が「NTT」である論文
の中で、<概要>や<本文>の中に、「言語処理」やそ
の連想キーワード「形態素解析」、「構文解析」、「機
械翻訳」などの単語を含むデータのコンテンツIDを検
索結果として得ることができる。
【0070】従来の概念検索方式は、「NTT」と「言
語処理」を同等に扱い、その単語間の類似度を計算した
結果を、質問文の概念としていた。だが、この場合、
「NTT」は単なる文書の属性情報の一つである。すな
わち、著者の所属を指している。「NTT」と「言語処
理」の意味的な近さを計算したところで、その質問文の
概念を表すには漠然としているという問題点があった。
本発明によれば、利用者の検索要求の一つの意図情報と
して、コンテンツの属性情報を、具体的な属性項目(タ
グ)から抽出するので、検索質問文から、利用者の検索
意図を反映したコンテンツの属性項目(タグ)を特定す
ることによって、確度の高い検索結果を得ることができ
るという効果がある。
【0071】
【実施例2】次に、図9〜10のフローチャートにもと
づいて、コンテンツがマルチメディアコンテンツの場合
の具体的な実施例を説明する。まず、最初に、S2で利
用者が検索質問文として、「世界の劇場の写真は?」と
いう質問文を入力したとする。S3でその検索質問文に
ついて形態素解析処理を行ない、単語分割、品詞付与を
行なって、「の」「は」などの助詞等の付属語を除去
し、「世界」、「劇場」、「写真」というキーワードを
抽出する。S4でそれらキーワードを一次記憶に保存す
る。その各キーワードについて以下の処理を行う。
【0072】まず、「世界」というキーワードについ
て、実施例1で説明したと同様に、タグつき属性情報に
よる概念ベース(S6)の縦軸の見出し語と、「世界」
というキーワードを照合し、キーワードと一致する見出
し語が存在した場合は、その見出し語の出現率の最も大
きい属性項目(タグ名)、例えば「概要」というタグ名
を特定する。ここで特定したタグ名「概要」を入力とし
て、あらかじめ作成しておいた図4のタグ名インデック
ス(S10)を検索する(S9)。そのタグ名インデッ
クスのタグ名と照合し、「概要」というタグ名に対応す
るタグ別属性情報インデックスファイル名を得る。
【0073】次に、タグ別属性情報インデックスファイ
ルをあらかじめ作成しておき、「概要」タグについての
タグ別属性情報インデックスファイル(S13)を検索
する(S12)。この例では、そのタグの値の中に、元
のキーワードである「世界」を検索し、一致した見出し
語を含むコンテンツのコンテンツIDを一次検索結果と
して得ることができる。
【0074】次に、「写真」というキーワードについ
て、タグつき属性情報による概念ベースを参照して、キ
ーワードと一致する見出し語をさがす。その結果、キー
ワードと一致する見出し語が存在しなかった場合、S2
5にとび、キーワードの連想処理を行なう。
【0075】キーワード連想処理(S25)は、前記コ
ーパスによる概念ベースと、前記国語辞典による概念ベ
ースを利用し、キーワードを連想する。この例では、
「写真」というキーワードから、「メディア」と「静止
画」というキーワードが連想できる。
【0076】次に、実施例1とは異なり、ここで再び、
その連想キーワード「メディア」と、前記タグつき属性
情報による概念ベースの縦軸の「見出し語」と、横軸の
「属性項目」の両方と照合して、連想キーワード「メデ
ィア」を検索する。その結果、属性項目<メディア>と
一致する。この横軸の「属性項目」を照合する際、下位
属性項目だけでなく、上位属性項目もすべて照合する。
【0077】そこで、あらかじめ作成しておいた前記タ
グ別属性情報インデックスファイルの中で、<メディア
>タグのタグ別属性情報インデックスファイルの値(見
出し語)と、他の連想キーワードである「静止画」を照
合し、一致した見出し語を含むコンテンツのコンテンツ
IDを検索結果として抽出する。なお、上位属性項目と
一致した場合は、その下位属性項目の値を検索対象とす
る。
【0078】つまり、検索質問文「世界の劇場の写真は
?」の中の、「写真」という単語から、「メディア」と
いうコンテンツの属性項目を抽出する。このことは、利
用者が「コンテンツの<メディア>の種類が、「静止
画」であるコンテンツをさがしたい」という意図をもっ
ていて、それを抽出したことになる。その結果、タグ別
属性情報インデックスファイルを使って、それに該当す
るコンテンツIDを一次検索結果として得ることができ
る。
【0079】次に、「劇場」というキーワードについて
説明する。実施例1と同様に、タグつき属性情報による
概念ベースを参照して、キーワードと一致する見出し語
をさがす。その結果、キーワードと一致する見出し語が
存在しなかったとすると、前述のキーワード「写真」と
同様に、S25にとび、コーパスによる概念ベースと、
国語辞典による概念ベースを利用して、キーワードの連
想処理(S25)を行う。ここでは、「シアター」、
「芝居小屋」、「コロシアム」などのキーワードが連想
できる。次に、これらの連想キーワードでタグつき属性
情報による概念ベースを検索する。しかし、一致する見
出し語も属性項目名も存在しない場合には、これら連想
キーワードは、コンテンツの属性情報に結びつく単語で
はなかったとする。したがって、あらかじめデフォルト
タグとして設定しておいた、内容そのものを表す属性項
目の、デフォルトタグのタグ別属性情報インデックスフ
ァイルの値(見出し語)を検索対象とする。この場合は
のデフォルトタグは、<概要>タグである。
【0080】この<概要>タグの値の中から、元のキー
ワードである「劇場」と、連想キーワードである「シア
ター」、「芝居小屋」、「コロシアム」などを検索し、
一致した見出し語をもつコンテンツのコンテンツIDを
二次検索結果として抽出する。ここで、デフォルトタグ
の設定は自由であり、別のタグをデフォルトタグとして
設定してもよい。
【0081】そして、一次検索結果として得たコンテン
ツIDと、二次検索結果として得たコンテンツIDの論
理積演算処理を行ない、その結果得られたコンテンツI
Dを最終的な検索結果ファイルに格納する。すなわち、
属性項目<メディア>に、連想キーワード「静止画」で
あるコンテンツとして得られた一次検索結果の中から、
属性項目<概要>に、検索キーワード「劇場」やその連
想キーワード「シアター」、「芝居小屋」、「コロシア
ム」を含んでいるコンテンツのコンテンツIDを取り出
して検索結果とすることになる。
【0082】実施例1と同様に、検索質問文から、利用
者の検索意図を反映したコンテンツの属性項目(タグ)
を特定することによって、確度の高い検索結果を得るこ
とができるという効果がある。
【0083】
【発明の効果】以上説明したように、従来技術のキーワ
ード検索方式には、利用者の検索要求が適切な検索条件
となれない欠点があり、全文検索方式には、キーワード
として指定した単語が文書の内容を必ずしも表すもので
なく、必要のない文書を検索してしまうという欠点があ
った。また、概念検索方式には、利用者の検索したい内
容の意図でしぼりこむことができなかったという欠点が
あった。
【0084】本発明では、文書あるいは文書以外のマル
チメディアのコンテンツにおけるそれぞれのコンテンツ
の属性情報を、その性質を表わした自然言語で記述した
属性項目(タグ)によって区分されたタグつき属性情報
について、該タグつき属性情報中のテキストより抽出し
た単語で、不要語に該当しない個々の単語(見出し語)
と、各タグとの関連度を要素とした行列であるタグつき
属性情報による概念ベースを作成する。そして、対象コ
ンテンツを検索する際に、該タグつき属性情報による概
念ベースを参照し、検索の質問文中に含まれる見出し語
と関連度が高い属性項目(タグ)を特定する。このタグ
名を特定することは、検索質問文中のキーワードから、
利用者の検索要求の一つの意図情報として、コンテンツ
の属性情報を、具体的な属性項目(タグ)から抽出する
ことである。このように、検索質問文から、利用者の検
索意図を反映したコンテンツの属性項目(タグ)を特定
することによって、確度の高い検索結果を、すなわち、
利用者の意図に合ったコンテンツを得ることができると
いう効果がある。
【図面の簡単な説明】
【図1】文書データ、たとえば、論文についての属性項
目(タグ)の木構造の例を示す図である。
【図2】タグつき属性情報の例を示す図である。
【図3】タグつき属性情報による概念ベースの例を示す
図である。
【図4】タグ名インデックスの例を示す図である。
【図5】タグ別属性情報インデックスファイルの例を示
す図である。
【図6】本発明の情報検索処理を説明するフローチャー
トであって、コンテンツが文書の場合の処理フロー例を
示す図である。
【図7】マルチメディアコンテンツの属性項目(タグ)
の木構造の例を示す図である。
【図8】マルチメディアコンテンツについての、タグつ
き属性情報の例を示す図である。
【図9】本発明の情報検索処理を説明するフローチャー
トであって、コンテンツが文書以外のマルチメディアコ
ンテンツの場合の処理フロー例を示す図である。
【図10】図9に続く処理フロー例を示す図である。
【符号の説明】
S1 検索質問文入力待ちの開始状態 S2 キーボード等による検索質問文の入力処理 S3 検索質問文からキーワードを抽出するキーワード
抽出処理 S4 S3で抽出し一次記憶に抽出したキーワード S5 タグつき属性情報による概念ベースとのマッチン
グ処理 S6 タグつき属性情報による概念ベース S7 S6にキーワードが存在するか否かの有無を問う
分岐処理 S8 タグ名を特定する処理 S9 タグ名インデックスを参照する処理 S10 タグ名インデックス S11 タグ別属性情報インデックスファイルを特定 S12 タグ別属性情報インデックスファイルをキーワ
ードで検索する処理 S13 タグ別属性情報インデックスファイル S14 コンテンツID獲得およびスコア付与処理 S15 一次検索結果ファイルに格納処理 S16 一致したタグについてすべて処理したか否かを
調べる処理 S17 すべてのキーワードについて処理したか否かを
調べる処理 S18 一次検索結果の有無を調べる処理 S19 二次検索結果を検索結果とする処理 S20 二次検索結果の有無を調べる処理 S21 一次検索結果と二次検索結果の論理積演算処理 S22 一次検索結果を検索結果とする処理 S23 スコア順ソーティング処理 S24 検索結果表示処理 S25 キーワード連想処理 S26 コーパスによる概念ベース S27 国語辞典による概念ベース S28 連想キーワードを特定 S29 連想キーワードとデフォルトタグのタグ別属性
情報インデックスファイルとのマッチング処理 S30 デフォルトタグのタグ別属性情報インデックス
ファイル S31 コンテンツID獲得およびスコア付与処理 S32 二次検索結果ファイルに格納処理 S33 すべてのキーワードを処理したか否かを調べる
処理 S34 終了状態 S35 タグつき属性情報による概念ベースとのマッチ
ング処理 S36 連想キーワードが存在したか否かを調べる処理 S37 タグ名を特定する処理 S38 タグ名インデックスを参照する処理 S39 タグ別属性情報インデックスファイル名を特定
する処理 S40 タグ別属性情報インデックスファイルを連想キ
ーワードで検索する処理 S41 コンテンツ獲得とスコア付与処理 S42 一次検索結果ファイルに格納する処理 S43 一致したタグについてすべて処理したか否かを
調べる処理 S44 すべてのキーワードについて処理したか否かを
調べる処理 S45 キーワードおよび連想キーワードとデフォルト
タグ別属性情報インデックスファイルとのマッチング処
理 S46 デフォルトタグのタグ別属性情報インデックス
ファイル S47 コンテンツID獲得およびスコア付与処理 S48 二次検索結果ファイルに格納処理 S49 すべてのキーワードを処理したか否かを調べる
処理 S50 終了状態
───────────────────────────────────────────────────── フロントページの続き (72)発明者 並木 育夫 東京都新宿区西新宿二丁目1番1号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内 (72)発明者 大山 実 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 笠原 要 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 加藤 恒昭 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND16 NK43 NK46 PP24 PR04 PR06 QM07 QM08

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書あるいは文書以外のマルチメディア
    のコンテンツ(以下、特許請求の範囲において「コンテ
    ンツ」という。)におけるそれぞれのコンテンツの属性
    情報を、その性質を表わした自然言語で記述した属性項
    目(以下、特許請求の範囲において「タグ」という。)
    によって区分されたタグつき属性情報について、該タグ
    つき属性情報中のテキストより抽出した単語で、不要語
    に該当しない個々の単語(以下、特許請求の範囲におい
    て「見出し語」という。)と、各タグとの関連度を要素
    とした行列であるタグつき属性情報による概念ベースを
    作成し、対象コンテンツを検索する際に、該タグつき属
    性情報による概念ベースを参照し、検索の質問文中に含
    まれるキーワードと一致した見出し語が存在した場合、
    当該見出し語と関連度が高いタグに係る属性情報を検索
    することを特徴とする概念検索方式。
  2. 【請求項2】 請求項1において、タグと見出し語との
    関連度が、該見出し語が当該タグに出現する頻度を出現
    率で記述したものであることを特徴とする概念検索方
    式。
  3. 【請求項3】 請求項1において、検索の質問文中に含
    まれるキーワードと一致した見出し語が存在した場合、
    当該見出し語と関連度が高いタグについて、タグ名イン
    デックスファイルを検索して、該関連度が高いタグのタ
    グ名からタグ別属性情報インデックスファイル名を取得
    し、次に、該タグ別属性情報インデックスファイルから
    該検索の質問文中に含まれるキーワードを検索し、当該
    タグの値として該キーワードと一致した見出し語を含む
    コンテンツのコンテンツIDを一次検索結果として得る
    ことを特徴とする概念検索方式。
  4. 【請求項4】 請求項3において、当該タグの値として
    該キーワードと一致した見出し語を含むコンテンツを検
    出できなかった場合は、該検索の質問文中に含まれるキ
    ーワードに対して、コーパスをもとにして作成した概念
    ベース、または国語辞典をもとにして作成した概念ベー
    スを用いて、キーワードの連想処理を行い、当該タグの
    値として当該連想キーワードと一致した見出し語を含む
    コンテンツのコンテンツIDを二次検索結果として得る
    ことを特徴とする概念検索方式。
  5. 【請求項5】 異なるキーワードについて、請求項3に
    おける一次検索結果と請求項4における二次検索結果の
    両方が存在する場合、請求項3における複数の一次検索
    結果が存在する場合又は請求項4における複数の二次検
    索結果が存在する場合、それらの論理積演算処理を行
    い、その結果得られたコンテンツIDを検索結果として
    得ることを特徴とする概念検索方式。
JP2000383189A 2000-12-18 2000-12-18 概念検索方式 Pending JP2002183195A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000383189A JP2002183195A (ja) 2000-12-18 2000-12-18 概念検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000383189A JP2002183195A (ja) 2000-12-18 2000-12-18 概念検索方式

Publications (1)

Publication Number Publication Date
JP2002183195A true JP2002183195A (ja) 2002-06-28

Family

ID=18850886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000383189A Pending JP2002183195A (ja) 2000-12-18 2000-12-18 概念検索方式

Country Status (1)

Country Link
JP (1) JP2002183195A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP2009211683A (ja) * 2008-02-08 2009-09-17 Canvas Mapple Co Ltd 情報検索装置、情報検索方法、及び情報検索プログラム
JP4469410B1 (ja) * 2009-09-29 2010-05-26 キャンバスマップル株式会社 情報検索装置、情報検索方法、及びコンピュータプログラム
JP2020009273A (ja) * 2018-07-10 2020-01-16 株式会社医用工学研究所 検索システム
JP2020194460A (ja) * 2019-05-29 2020-12-03 株式会社日立製作所 文書検索システム、文書検索装置及び方法
US10929446B2 (en) 2015-03-20 2021-02-23 Kabushiki Kaisha Toshiba Document search apparatus and method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP2009211683A (ja) * 2008-02-08 2009-09-17 Canvas Mapple Co Ltd 情報検索装置、情報検索方法、及び情報検索プログラム
JP4469410B1 (ja) * 2009-09-29 2010-05-26 キャンバスマップル株式会社 情報検索装置、情報検索方法、及びコンピュータプログラム
JP2011076144A (ja) * 2009-09-29 2011-04-14 Canvas Mapple Co Ltd 情報検索装置、情報検索方法、及びコンピュータプログラム
US10929446B2 (en) 2015-03-20 2021-02-23 Kabushiki Kaisha Toshiba Document search apparatus and method
JP2020009273A (ja) * 2018-07-10 2020-01-16 株式会社医用工学研究所 検索システム
JP7101946B2 (ja) 2018-07-10 2022-07-19 株式会社医用工学研究所 検索システム
JP2020194460A (ja) * 2019-05-29 2020-12-03 株式会社日立製作所 文書検索システム、文書検索装置及び方法

Similar Documents

Publication Publication Date Title
US10452718B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
US10445359B2 (en) Method and system for classifying media content
Kowalski et al. Information storage and retrieval systems: theory and implementation
US9639609B2 (en) Enterprise search method and system
US5895464A (en) Computer program product and a method for using natural language for the description, search and retrieval of multi-media objects
US6286000B1 (en) Light weight document matcher
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US20080140644A1 (en) Matching and recommending relevant videos and media to individual search engine results
US8812504B2 (en) Keyword presentation apparatus and method
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
JPH05120345A (ja) キーワード抽出装置
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JP2003150623A (ja) 言語横断型特許文献検索方法
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JPH1049543A (ja) 文書検索装置
JP2002183195A (ja) 概念検索方式
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
JP3249743B2 (ja) 文書検索システム
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
EP1876539A1 (en) Method and system for classifying media content
JP2002183175A (ja) テキストマイニング方法
JPH07296005A (ja) 日本語テキスト登録・検索装置