JP4129132B2 - Search result presentation apparatus, search result presentation method, and search result presentation program - Google Patents

Search result presentation apparatus, search result presentation method, and search result presentation program Download PDF

Info

Publication number
JP4129132B2
JP4129132B2 JP2002008218A JP2002008218A JP4129132B2 JP 4129132 B2 JP4129132 B2 JP 4129132B2 JP 2002008218 A JP2002008218 A JP 2002008218A JP 2002008218 A JP2002008218 A JP 2002008218A JP 4129132 B2 JP4129132 B2 JP 4129132B2
Authority
JP
Japan
Prior art keywords
search
data
impression
impression expression
expression word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002008218A
Other languages
Japanese (ja)
Other versions
JP2002358323A (en
Inventor
知代 福永
真 佐野
淳 高藤
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2002008218A priority Critical patent/JP4129132B2/en
Publication of JP2002358323A publication Critical patent/JP2002358323A/en
Application granted granted Critical
Publication of JP4129132B2 publication Critical patent/JP4129132B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、検索要求文生成装置、検索結果提示装置、検索要求文生成方法、検索結果提示方法、検索要求文生成プログラム、検索結果提示プログラム、データ検索装置、データ検索方法、及びデータ検索プログラムに関し、例えば、イメージ情報検索を行うものに関する。
【0002】
【従来の技術】
画像や映像などのイメージデータを検索する方法は各種提案されており、その1つに印象表現語などをキーとして検索するものがある。
例えば、本出願人の提案による特願平11−281201(未公開)のデータ検索装置がある。この検索装置は、イメージ情報の検索にあたって、検索キーとして印象表現、程度副詞、及び客観的な特徴条件を文章によって入力する手法を基本とするものである。
【0003】
【発明が解決しようとする課題】
しかし、この手法は、以下のような問題を含んでいる。
まず、以下のような場合に適切な検索要求文の作成が困難である。
例えば、ユーザが自身が欲する明確な主観的要求を把握していない場合、曖昧にしか自らの要求をイメージできていない場合、文章によって検索要求を表わすことは困難である。
【0004】
また、ユーザがコンテンツ内において対象となっている事項についてどのような主観的特徴を持つものであるのか思いつかない場合、即ちユーザが対象コンテンツについて詳細な情報を得ていない場合、そのコンテンツで対象となっているものがどのような主観的イメージを持ちうるのか分らない場合がある。
例えば、ワインコンテンツにおいて、ワインなどの酒類に詳しくないユーザはワインを選択する際の指標である「甘い」、「フルーティーな」などといたった印象語が思い浮かばない場合がある。
更に、例えばインターネットの検索サイトなどのキーワード検索に親しんでいるユーザの場合、名詞句は思いついてもフィーリングに関わる言葉は思いつきにくいこともある。
【0005】
この他にも、例えば、印象表現語がかかっている名詞句(評価視点)が不明確である場合にも問題が生じる。即ち、印象表現語のみを検索キーとする場合、ユーザが暗黙的にその印象表現語の対象を認識しており、システムがそのユーザの意に対して適切な結果が出せない場合がある。
例えば、図25に示したように、ホテルコンテンツにおいて、ユーザが検索要求として「部屋が広い」ということを暗黙のうちに認識、要求したとしてもシステム側は、「広い」のみからユーザが意図しない「バスルームが広い」や「エントランスが広い」といった文章まで取得してしまう。
【0006】
また、例えば、特願平11−281201のデータ検索装置は、より類似性の高いイメージ情報順に検索結果として出力するが、この検索結果の表示についても次にような問題を含んでいた。
まず、どの部分がヒットしているのかが分りにくかった。キーワード検索とは違い、似た要素をもつ印象表現語を含むデータもヒットするため、字面が一致しているところをハイライトするだけでは、どの語によってヒットしたのかが分りにくい。
【0007】
また、検索結果は、一見して理解できにくいものであり、ユーザの納得感が低かった。即ち、字面の一致に着目してもそれぞれの特徴や違いをつかむことができないため、納得感が低くなる。
また、検索した結果、ユーザの意にそぐわなかった場合又は該当する結果が無い場合、再検索が必要となるが、再入力する際、同じ意味を持ち、かつ該当する結果が表示されるような検索要求文はなかなか思いつきにくく、ユーザの負担となっていた。
【0008】
そこで、本発明の目的は、検索要求と結果の一致を明確にすることができる検索結果提示装置、検索結果提示方法、検索結果提示プログラムなどを提供することである。
【0009】
【課題を解決するための手段】
前記目的を達成するために、請求項1に記載の発明では、検索順位を付けられた検索データを取得する検索結果取得手段と、前記検索結果取得手段にて検索データに含まれる文書データを取得する文書データ取得手段と、前記文書データ取得手段にて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する抽出手段と、前記抽出手段にて抽出された前記印象表現語と前記名詞句を統制する統制手段と、前記統制手段にて統制された前記印象表現語と前記名詞句のセットを用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する差分手段と、前記検索順位第2位以下の検索データに関して、前記差分手段にて取得した前記印象表現語と前記名詞句のセットを提示する提示手段と、を具備したことを特徴とする検索結果提示装置を提供する。
請求項2に記載の発明では、前記抽出手段は、前記印象表現語と前記名詞句と結びついた程度副詞がある場合は、当該程度副詞をセットとして取り出すことを特徴とする請求項1に記載の検索結果提示装置を提供する。
請求項3に記載の発明では、前記文書データに含まれる程度副詞、前記印象表現語、又は前記印象表現語と結びつく名詞句のうち、少なくとも1つを強調して提示する強調提示手段と、前記文書データのうち、程度副詞、前記印象表現語、又は前記印象表現語と結びついた名詞句のうち、少なくとも1つを行を用いて当該文書データの要約を提示する要約提示手段と、のうち、少なくとも1つを更に備えたことを特徴とする請求項1に記載の検索結果提示装置を提供する。
請求項4に記載の発明では、前記提示手段、又は前記強調提示手段、又は前記要約提示手段のうちの少なくとも1つの提示手段にて提示された程度副詞、又は印象表現語、又は前記印象表現語に結びついた名詞句を用いて検索要求文を作成することができる請求項3に記載の検索結果提示装置を提供する。
請求項5に記載の発明では、検索結果取得手段と、文書データ取得手段と、抽出手段と、統制手段と、差分手段と、提示手段と、を具備した検索結果提示装置において、検索結果を提示する際に用いられる検索結果提示方法であって、前記検索結果取得手段が、検索順位を付けられた検索データを取得する第1のステップと、前記文書データ取得手段が、前記第1のステップにて検索データに含まれる文書データを取得する第2のステップと、前記抽出手段が、前記第2のステップにて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する第3のステップと、前記統制手段が、前記第3のステップにて抽出された印象表現語と前記名詞句を統制する第4のステップと、前記差分手段が、前記第4のステップにて統制された前記印象表現語と前記名詞句を用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する第5のステップと、前記提示手段が、前記検索順位第2位以下の検索データに関して、前記第5のステップにて取得した前記印象表現語と前記名詞句のセットを提示する第6のステップと、を有することを特徴とする検索結果提示方法を提供する。
請求項6に記載の発明では、検索順位を付けられた検索データを取得する検索結果取得機能と、前記検索結果取得機能にて検索データに含まれる文書データを取得する文書データ取得機能と、前記文書データ取得機能にて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する抽出機能と、前記抽出機能にて抽出された前記印象表現語と前記名詞句を統制する統制機能と、前記統制機能にて統制された前記印象表現語と前記名詞句のセットを用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する差分機能と、前記検索順位第2位以下の検索データに関して、前記差分機能にて取得した前記印象表現語と前記名詞句のセットを提示する提示機能と、をコンピュータに実現するための検索結果提示プログラムを提供する。
【0010】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明の第1の実施の形態について、図1から図15を参照して詳細に説明する。図1は、第1の実施の形態に係る検索要求文生成システムと検索結果提示システムが装備されたデータ検索装置11の構成を示した図である。データ検索装置11は、一例としてイメージ情報検索を行うものとするが、これに限定するものではなく、例えば、「広い」、「甘い」といった印象表現語(感性語)を用いた検索装置に広く一般的に適用できるものである。
データ検索装置11は、中央制御部12、入出力部16、モデム17記憶装置18などから構成されてる。
入出力部16は、例えば、キーボード、マイクロフォン、マウスなどの入力装置や、ディスプレイ装置、プリンタ、スピーカ、などの出力装置、或いは、磁気ディスクドライブなどの入出力装置に接続している。そしてユーザは、入力装置を介して検索要求文を入力したり、出力装置を介して検索結果を取得することができる。更に、ディスクドライブなどを使用して磁気ディスクなどへデータの書き込み及び読み込みを行ったりすることができるようになっている。
【0011】
記憶部18は、例えばハードディスクやその他の不揮発性メモリなどによって構成された記憶装置である。記憶部18は、検索要求文生成プログラム、検索結果表示プログラムや、イメージ情報検索プログラムなどの検索プログラム、その他のプログラムが記憶されたプログラム部19と、コンテンツデータなどの各種データがデータベース化された記憶されているデータ部20、後に説明する印象表現語(形容詞など)の活用形の統制を行う際に使用する表記ゆれ統制辞書24、評価視点(印象表現語に強く結びついた名詞句)を統制する際に使用するシソーラス辞書25を含んでいる。
【0012】
モデム17は、例えばインターネットなどのネットワークを介してデータ検索装置11が外部と通信をするための部分である。
中央制御部12は、CPU(Central Processing Unit)13、ROM(Read Only Memory)14、RAM(Random Access Memory)15から構成されている。
RAM15は、プログラム部19のプログラムをロードしたり、CPU13にワーキングメモリを提供したりする読み書き可能なメモリである。
【0013】
ROM14は、データ検索装置11を動作させるための基本的なプログラムやパラメータを記憶した読取専用のメモリである。
CPU13は、ROM14に記憶されたプログラムやRAM15にロードされたプログラムなどに従って、各種の演算や判断を行うと共にバスライン21を介して入出力部16、モデム17、記憶装置18などとのデータの送受信、及びこれらの機器の制御など行う部分である。
【0014】
検索要求文生成システムと、検索結果表示システムのうち、まず、検索要求文生成システムについて説明する。
図2は、検索要求文生成システム37の構成を示したブロック図である。
検索要求文生成システム37の構成要素のうち、表記ゆれ統制辞書24とシソーラス辞書25は、記憶装置18(図1)に記憶されており、マージモジュール32、統制モジュール33、名詞句頻度モジュール34、ソートモジュール35、クエリーツール表示モジュール36は、プログラム部19に格納されている検索要求文生成プログラムがRAM15にロードされ、ソフトウェア的に実現されたモジュールである。
入力手段31は、例えば、入出力部16に接続されたキーボードやマウスであって、ユーザは、該キーボードやマウスを用いて検索条件などを入力することができる。
【0015】
次に、検索要求文生成システム37の機能を図3〜図10を用いながら説明する。
マージモジュール32は、入力手段から、入力データを取得すると、コンテンツ内の全データをマージ(併合)し、印象表現語と、該印象表現語と強く結びついている名詞句をセット取り出す。また、例えば、「やや広い」とか、「かなり甘い」といったように、程度副詞が印象表現語と結びついている場合、これらの程度副詞も印象表現語と名詞句と共に取り出しておく。
なお、後に説明するクエリーツリーを作る場合においては、印象表現語と結びついた程度副詞を用いる必要がないが、その他の処理では、印象表現語と結びついた程度副詞がある場合は、これも取り出しておく。
ここで、印象表現語とは、「広い部屋」の「広い」や「フルーティーなワイン」の「フルーティー」のように、名詞句と結びついた、または単独の形容詞又は形容動詞などであって、人間の印象や感性を表す語句である。
【0016】
図3は、マージモジュール32の機能を説明するための図である。まず、コンテンツ内のデータdata1、data2、…を全てマージしてマージデータ41を生成する。そして、次にマージデータ41から印象表現語と該印象表現語に強く結びついた名詞句をセットで取り出し、印象表現語名詞句セットデータ42を生成する。
なお、これらの名詞句は印象の対象を意味し、評価視点とも呼ばれる。
図3の例では、マージデータ41の「部屋が広く」から印象表現語「広く」とこれに結びついた名詞句「部屋」がセットとして取り出され、印象表現語名詞句セットデータ42に登録されている。同様に、「静かな環境で」から「静かな」/「環境」のセットが、また、「部屋は広く」から「部屋は」/「広く」のセットが取り出されている。
【0017】
次に、統制モジュール33(図2)は、印象表現語名詞句セットデータ42に取り出された印象表現語と名詞句に対して統制を行う。
まず、印象表現語(形容詞、形容動詞など)の統制に関しては、これら形容詞、形容動詞が活用形である場合は、これらを終止形に統制する。また、表記揺れ辞書24を参照し、読みが同じでかつ同義である漢字、ひらがな、カタカナを何れかの正規化表現(例えば、ひらがな、カタカナ表記を漢字表記に揃えるなど、あらかじめ決めておいた標準的な表記)へ統制する。
次に、統制モジュール33は、シソーラス辞書25を参照し、印象表現語名詞句セットデータ42の名詞句に対して表記統制を行う。この表記統制は、名詞句に上位語がある場合は、上位語に揃え、同義語があれば、正規化表現へ統制する。
【0018】
図4は、統制モジュール33の機能を説明するための図である。
まず、統制モジュール33は、印象表現語名詞句セットデータ42を取得し、図示しないが、例えば、「広く」、「静かな」などの印象表現語を終止形「広い」、「静かだ」などに統制する。
次に、統制モジュール33は、表記揺れ辞書24を用いて印象表記ゆれの統制を行う。表記揺れの統制により、例えば、「ひろい」、「ヒロイ」などは「広い」に、「あまい」は「甘い」に、「臭い」、「クサイ」、「くさい」などは、「臭い」にそれぞれ正規化表現に統制される。
表記揺れ辞書24には、このように、統制する必要のある表記と、それらを統制した後の表記(正規化表現)をデータベースとして持っているものである。
【0019】
次に、統制モジュール33は、シソーラス辞書25を用いて、例えば、「バスルーム」を同義語である「風呂」に、また「大浴場」を上位語である「風呂」に、更に「銭湯」を上位語である「風呂」に統制し、表記統制後データ43を生成する。表記統制後データ43では、印象表現語と名詞句のセットは、例えば、「広く」/「部屋」などは、「広い」/「部屋」などと、表記が揃えられている。
シソーラス辞書25は、下位語とそれに対応する上位語や、表記を揃えるべき同義語とそれを揃えた後の同義語などを格納したデータベースである。
【0020】
名詞句頻度モジュール34(図2)は、統制モジュール33から統制後データを取得し、その中の名詞句のみを頻度によってソート(並べ替え)し、頻度の高いものを評価視点(印象表現語の印象の対象となるもの、例えば、「広い家」の「家」)として採用する。
コンテンツ内に存在する印象表現語が係る名詞句は、そのコンテンツ内の、例えば「広い」とか「厚い」などの主観的表現の対象となっているものであり、ユーザが主観的表現の対象を検索要求として欲する際の視点であると言える。
【0021】
図5は、ソートモジュール35が生成したソートデータ45を示した図である。ソートデータ45は、ソートモジュール35が表記統制後データ43から抽出した名詞句の頻度を示している。この頻度は、該名詞句が結びついている印象表現語に関わらず集計したものである。
図5から「部屋」の頻度が25(即ち、表記後統制データ43中の名詞句で「部屋」が現れる回数)であり、「風呂」が13などとなっている。
ソートモジュール35は、ソートデータ45で得られた頻度のうち、頻度の高い名詞句を視点として、表現語と共に視点データ46を生成する。図5のソートデータ45では、頻度10以上の「部屋」、「風呂」、「ロビー」、「従業員」が評価視点として選ばれ、視点データとしてソートモジュール35から出力される。
【0022】
図6は、ソートモジュール45が生成した視点データ46を示した図である。視点データ46では、評価視点として選ばれた名詞句と、この名詞句と結びつく印象表現語が頻度と共に関連付けられている。
クエリーツリー表示モジュール36は、視点データ46をソートモジュール35から取得し、評価視点を親(ノード)とし、一方セットの印象表現語を子としたツリー構造(クエリーツリー)として入出力部16(図1)に接続した表示装置に表示する。
また、ユーザは、検索の際に該クエリーツリーを利用することができる。即ち、ユーザがクエリーツリーから印象表現語と名詞句をマウス操作などで選択すると、クエリーツリー表示モジュール36は、選択された印象表現語と名詞句がセットとなった検索要求文を生成し、データ検索システムに送る。
【0023】
図7は、表示装置に表示された入力画面48を示している。入力画面48は、イメージ情報検索プログラムなどによって、表示されたものである。入力画面48は、フィーリング入力欄49、文章入力欄50、客観的情報入力欄51、検索ボタン52などから構成されている。
フィーリング入力欄49に表示されているクエリーツリーは、検索要求文生成プログラムのクエリーツリーモジュール36が生成して表示したものである。
【0024】
図7に示したように、フィーリング入力欄49では、評価視点(名詞句)をノードとし、評価視点と結びつく印象表現語がビジュアルにツリー構造として表示されている。つまり、名詞句を親として、これに結びついた印象表現語を子として階層的に表示される。同じ名詞句に複数の印象表現語が結びついている場合は、これらの印象表現語は兄弟となる。
このように、ツリー構造によって、頻度の高い名詞句と印象表現語を表示することによって、例えば、通常ワインで使用される「フルーティーな」という印象表現語を想起しないユーザであっても、「ワイン」−「フルーティーな」といったように、容易に適切な印象表現語をクエリーツリーから得ることができる。
また、該クエリーツリーは、ユーザの評価視点があいまいな場合に、ユーザが評価視点を設定する際の手がかりとして活用することができる。
【0025】
次に、入力画面48を用い方について説明する。
ユーザがフィーリング入力欄49を使用する場合は、ユーザは、マウス操作によってノードをクリックするなどして、フィーリング入力欄49において評価視点を選択し、決定する。すると、その評価視点に対応した印象表現語がツリー構造となって表示される。
なお、図7のフィーリング入力欄49は、ユーザにより評価視点「部屋」、「風呂」、「場所」がクリックされた結果、「広い」、「清潔だ」、…などの印象表現語がツリー構造によって表示されたものである。
【0026】
例えば、ユーザが評価視点「部屋」と印象表現語「広い」をクリックした後、検索ボタン52をクリックすると、イメージ情報付属文書に「広い」/「部屋」のセットを有するイメージ情報などが検索される。
また、図8は、文章入力欄50に検索情報を入力する場合を示している。文章入力欄50は、テキスト検索要求文入力枠である。ここから入力された文章から印象表現語と名詞句のセットが取り出され、程度副詞がある場合は、これもセットで取り出される。
例えば、フィーリング入力欄49には、「食事」という評価視点が無いが、文章入力欄50に自然文で「おいしい食事」などと入力すると、フィーリング入力欄49において「食事」−「おいしい」のツリーがあり、これを選択したのと同様の結果を得ることができる。
【0027】
また、文章入力欄50には、具体的データ名を入力してキーワード検索することもできる。
これは、データ検索装置11は、図示しないキーワード検索システムを備えており、これを用いて検索するものである。
図9は、文章入力欄50に具体的データ名を入力したところを示している。
例えば、ユーザは文章入力欄50に「品川ホテル」という具体名を入力することができる。
図10は、検索結果の表示画面であり、図示しないキーワード検索システムが検索した結果を後に説明する検索結果表示システムが表示装置に表示したものである。
【0028】
ここで、ユーザは、自分が「駅から近い」或いは「新しい部屋」というどちらかの或いは両方の要素に引かれていたということが分かり、必要と思う印象表現フレーズを選択し、検索を実行することができる。
また、客観的情報入力欄51の適当な属性をクリックすることにより(例えば「青森県」など)、客観的情報を制約的に用いることができ、結果表示の幅を調節することができる。
なお、印象表現フレーズとは、程度副詞、及びその程度によって想定されている印象を表す印象表現語、その印象表現語と強く関わる名詞句の3要素からなるものである。
【0029】
次に、検索結果表示システムについて説明する。
検索結果表示システム61が有する機能は、概略以下の通りである。
イメージ情報付属の文章の本文を表示する際は、程度副詞、印象表現語、名詞句などを色分けなどにより強調して表示し、文章の他の部分との差別化を行う。また、イメージ情報の要約を表示する際は、印象フレーズを多く持つ文を所定の行数、例えば1行表示する。
更に、2位以下のデータに対しては、1位との差分情報を取得し、表示する。
【0030】
図11は、検索結果表示システム61の構成を示したブロック図である。
表記揺れ統制辞書24とシソーラス辞書25は、検索入力部文生成システム37で使用したものと同じものである。
検索情報は、図11の図中下から上方向へ順に処理されていく。まずイメージ情報検索プログラムなどで検索された情報は、印象表現語名詞句副詞句セットモジュール62に入力される。
以下は、一例として、検索順位が1位と2位のものを表示するものとして説明するが、これは、更に多くの検索結果を表示しても良い。
【0031】
印象表現語名詞句副詞句セットモジュール62は、検索順位1位のイメージ情報と2位のイメージ情報の付属説明文を抽出する。なお、検索結果表示システム61がデータ検索装置から取得する検索結果は、あらかじめ順位付けされているものとする。
そして、検索要求文生成システム37と同様にして抽出した付属説明文から印象表現語と、該印象表現語と名詞句と程度副詞のセットを取り出す。
次に、統制モジュール63に印象表現語と名詞句のセットに対し、シソーラス辞書25、表記揺れ統制辞書24を用いて、表記の統制を行う。なお、統制モジュール63は、検索要求文生成システム37の統制モジュール33を用いることもできる。
印象表現語(形容詞、形容動詞など)に対しては、活用形であれば終止形にする。また、読みが同じで同義である漢字、ひらがな、カタカナを何れかの正規化表現へ統制する。
名詞句に対しては、上位語に統制したり、同義語があれば、正規化表現へ統制する。
【0032】
差分抽出モジュール64は、2つの文書から取り出された統制後の印象表現語と名詞句のセットを比較し、違う部分のみ取り出す。これによって、双方のイメージ情報に共通な面と、異なる面が明らかになる。そして、差分抽出モジュール64は、2位以下のイメージ情報に対しては、1位のイメージ情報と異なる印象表現フレーズを表示するようにする。
なお、差分抽出モジュール64は、統制された印象表現語と名詞句のセットを比較するようになっている。
強調モジュール65は、「若々しい」、「スパイシー」などの程度副詞、印象表現語、名詞句などを色分けするなどして他の語句から差別化する。
【0033】
図12(a)は、検索結果表示システム61がワインコンテンツを例としてデータ処理する様子を示した図である。
まず、印象表現語名詞句副詞句セットモジュール62は、検索結果のイメージ情報に付属した文書データ71を取得した後、各々のデータから印象表現語と名詞句のセットを取り出し、セットデータ72を生成する。
例えば、文書データ71の「爽やかな味わい」から「爽やかな」/「味わい」といったセットが取り出される。なお、「とても」などの程度副詞がある場合は、これもセットで取り出される。
【0034】
次に、統制モジュール63が印象表現語と名詞句の統制を行い、例えば、「爽やかな」/「味わい」などの表記は、「爽やかだ」/「味わい」などと正規化表現などに統制され、統制データ73となる。
次に、差分抽出モジュールは、2つのデータの共通のセット(印象表現語と名詞句)と異なるセットを調べ、差分データ74を抽出する。
これにより、例えば第1位の検索結果対象物(以下ワイン1)と第2位の検索結果の対象物(以下ワイン2)は、共に「爽やかな」/「味」であり、ワイン1は、ワイン2に比べて「とても」、「甘い」/「香り」を持っており、ワイン2は、ワイン1に比べて「美しい」/「ラベル」と「エレガントだ」/「香り」を有していることが分かる。
【0035】
更に、差分情報を用いて図12(b)に示したような検索結果を表示することも可能である。
図12(b)は、表示画面に表示された検索結果を示している。
検索順位1位のワイン「キュヴェ・クルーズ・ルージュ」と、2位から4位までのワインまでの差分をそれぞれのワインごとに示している。
このように、2位以下の結果に関して差分情報を抽出すると、ユーザは各ワインの特徴をより明確に認識することができる。
【0036】
図13は、一例としてワインコンテンツを検索する場合の入力画面48を示した図である。
ここで、ユーザがツリー構造から「口当たり」/「軽い」を選択し、客観的情報で「選択せず」を選択して検索した場合、図14に示した検索結果画面77が表示される。
まず、本文表示欄78では、「若々しい」、「スパイシー」、「フルーティー」、「軽くてフレッシュ」などの程度副詞、印象表現語、名詞句などが強調モジュール65によって着色表示されて強調されている。
要約表示欄79では、印象フレーズを多く持つ部分があらかじめ指定された行数(ここでは2行)だけ表示されている。
【0037】
第1位検索結果表示欄80では、イメージ情報付属文書から取り出した印象表現語と名詞句と程度副詞のセットが表示され、このワインの特徴がわかりやすく表示される。第2位検索結果表示欄81では、第1位のワインとの差分が表示されるようになっている。
【0038】
以上、色分けによる程度副詞、印象表現語などの強調、要約の表示、及び差分表示の3種類の結果表示方法を示したが、本文表示欄78、要約欄79、第1位検索結果表示欄80、第2位検索結果表示欄81の各々のからユーザが印象表現フレーズをマウスクリックなどにより選択すれば、その印象表現フレーズを検索要求文として再検索を行うことができるようになっている。
これにより、ユーザが1度検索を行い、実際のデータを見ることにより、自らの要求を明確にした場合も、その要求を含む印象表現フレーズを選択すると再度検索を実行できる。
例えば、最初に入力した「口当たり」/「軽い」よりも、「フレッシュだ」/「口当たり」というのが、よりユーザの要求に合致しているとすれば、例えば、第1検索結果表示欄80の「フレッシュな口当たり」をマウスでクリックするなどして選択することにより再度検索することができる。
【0039】
図15は、検索文生成システム37と検索結果表示システム61の動作を説明するためのフローチャートである。
まず、検索文生成システム37により、フィーリング入力欄49に評価視点をノードとしたクエリーツリーが表示される。そして、ユーザは、評価視点と印象表現語を選択することにより、検索要求文を選択する(ステップ10)。
次に、例えば、イメージ情報検索システムなどの検索システムにより選択された表現語と評価視点を用いて検索が行われる(ステップ20)。
【0040】
次に、検索結果表示システム61の印象表現語名詞句副詞句セットモジュール62は、1位と2位以下の検索されたイメージ情報などに付属した文書データを抽出し、該文書データから印象表現語と名詞句と程度副詞句のセットを取り出す(ステップ30)。
次に、統制モジュール63は、印象表現語の活用形を終止形に統制し(ステップ40)、更に印象表現語の統制(ステップ50)、名詞句の統制(ステップ60)を行う。
次に、差分抽出モジュール64は、印象表現語と名詞句と程度副詞句のセットの重複度を取得する(ステップ70)と共に1位と2位以下の各データを比較し、差分を抽出する(ステップ80)。
次に、検索結果を表示装置に表示する(ステップ90)。
更に、再検索が必要な場合は、再検索のために必要とする印象表現フレーズを差分情報から選択(ステップ100)した後、検索実行ボタン52を選択する(ステップ110)。
【0041】
以上に説明した検索結果表示システム61から以下のような効果を得ることができる。
まず、検索結果提示の際に、結果として表示された付属の説明文の中で印象表現フレーズをより多く含む文を抽出し、上位のものを指定数行示すことにより、要約効果を発揮することができる。
また、結果として表示された付属の説明文の中で印象表現フレーズの各要素(程度副詞、印象表現語、名詞句)に着目し、強調表示などにより、容易に見て取ることができる。
更に、結果として表示された付属の説明文のにおいて1位のものの印象表現フレーズ及び2位以下のものに対しては、対1位との差分の印象表現フレーズを表示することができる。
また、再検索については、検索結果画面77の本文表示欄78、要約欄79、第1位検索結果表示欄80、第2位検索結果表示欄81に表示された要約部分、又は、程度副詞、印象表現語、名詞句の強調部分或いは、差分の何れかを選択すると、それをクエリーとして再検索を行うことができる。
【0042】
(第2の実施の形態)
ところで、本出願人は、特願平11−281201(未公開)のデータ検索装置を提案している。第2の実施の形態では、第1の実施の形態で述べたデータ検索システムとして、当該データ検索装置を用いる。
また、特願平11−281201は、印象表現語と名詞句のセットを用いてイメージ情報を検索するようには構成されていないが、これを印象表現語と名詞句のセットにて検索できるようにシステムを一部変更する。
まず、特願平11−281201のデータ検索装置について説明する。
【0043】
本データ検索装置は、主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書と、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語に対する印象データが布置された主観評価表現辞書と、検索条件として、自然言語により主観的に表現された検索条件文を取得する検索条件文取得手段と、この検索条件文取得手段で取得した検索条件文から印象表現語を抽出し、前記主観評価表現辞書に格納された当該印象表現語の印象データから、前記取得された検索条件文に対する印象データを生成する検索印象データ生成手段と、この検索印象データ生成手段により生成された印象データに最も類似する印象データのイメージ情報を前記主観評価情報辞書から検索するイメージ情報検索手段と、このイメージ情報検索手段で検索されたイメージ情報を出力する出力手段と、を具備している(第1の構成)。
また、第1の構成は、前記主観評価表現辞書に格納された各印象表現語に対する印象データは、各座標軸に対する範囲指定する範囲データを備えている(第2の構成)。
また、第1の構成又は第2の構成は、新たなイメージ情報に関するテキストデータを取得するテキストデータ取得手段と、このテキストデータ取得手段で取得したテキストデータから印象表現語を抽出し、前記主観評価表現辞書に格納されている当該印象表現語の印象データから前記新たなイメージ情報に対する印象データを生成する印象データ生成手段と、この印象データ生成手段で生成した印象データを前記新たなイメージ情報の印象データとして前記主観評価情報辞書に登録するイメージ情報追加手段と、を具備するように構成することができる(第3の構成)。
また、第1の手段、第2の手段又は第3の手段は、テキストデータ印象表現語を抽出する抽出手段と、この抽出手段で抽出した印象表現語に、前記主観評価表現辞書に登録済みの印象表現語と未登録の印象表現語が存在する場合、前記登録済みの印象表現語に対する印象データから前記未登録の印象表現語に対する印象データを生成する印象表現語印象データ生成手段と、この印象表現語印象データ生成手段で生成した印象データを前記未登録の印象表現語の印象データとして前記主観評価表現辞書に登録する印象表現語追加手段と、を具備するように構成することができる(第4の構成)。
更に、第1の構成から第4の構成までのうちの何れかの1の構成の主観評価情報辞書は、各イメージ情報に対する客観的な特徴条件を備え、前記イメージ情報検索手段は、前記検索条件取得手段から客観的な特徴条件が取得された場合には、当該客観的な特徴条件を制約条件として、イメージ情報を絞り込むように構成することができる(第5の構成)。
更に、第1の構成から第5の構成までのうちの何れかの1の構成の前記主観評価情報辞書は、各イメージ情報に対する印象データと共に客観的特徴条件を備え、新たなイメージ情報の客観的特徴条件に基づいて、前記主観評価情報辞書に格納されたイメージ情報の印象データと客観的な特徴情報との関係から、前記新たなイメージ情報に対する印象データを生成し、前記主観情報辞書に格納する第2のイメージ情報追加手段を具備するように構成することができる(第6の構成)。
更に、第1の構成から第6の構成までのうちの何れかの1の構成の前記検索条件取得手段は、ネットワークに接続された外部装置から前記検索条件を取得し、前記出力手段は、前記ネットワーク接続された外部装置にイメージ情報を出力するように構成することができる(第7の構成)。
また、本データ検索装置に関連したデータ検索用プログラムとして、主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書を作成する機能と、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語に対する印象データが布置された主観評価表現辞書を作成する機能と、検索条件として、自然言語により主観的に表現された検索条件文を取得する検索条件文取得機能と、この検索条件文取得機能で取得した検索条件文から印象表現語を抽出し、前記主観評価表現辞書に格納された当該印象表現語の印象データから、前記取得された検索条件文に対する印象データを生成する検索印象データ生成機能と、この検索印象データ生成手段により生成された印象データに最も類似する印象データのイメージ情報を前記主観評価情報辞書から検索するイメージ情報検索機能と、このイメージ情報検索手段で検索されたイメージ情報を出力する出力機能と、をコンピュータに実現させるためのデータ検索用プログラムと、該データ検索用プログラムが記録された記録媒体がある。
【0044】
(1)データ検索装置の概要
主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書5(図21参照)を保持する。また、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語の印象データが布置された主観評価表現辞書4(図18参照)を保持する。主観評価表現辞書4の印象データには各座軸に対する座標値と、座標値を中心として各座標軸上での範囲を指定する範囲データを備えている(図19参照)。
そして、検索条件として、自然言語により主観的に表現された検索条件文から自然言語処理により印象表現語を抽出し、主観評価表現辞書4から対応する印象データを抽出する。印象表現語が複数存在する場合には、統合処理により統合した1又は複数の印象データを検索印象データとして生成する。そして、主観的類似性要素を座標軸とする座標空間において、各検索印象データとのユークリッド距離が最も近い印象データを有するイメージ情報を検索結果として出力する。
一方、新たなイメージ情報を追加する場合には、追加するイメージ情報に付加される説明文等のテキストデータから印象表現語を抽出し、統合化処理によって1つの印象データに統合する。その印象データから範囲データを除いた座標値からなる印象データを追加するイメージ情報の印象データとして主観評価情報辞書5に登録する。
また、イメージ情報検索、イメージ情報追加の処理過程で主観評価表現辞書4に未登録の印象表現語が抽出された場合、同処理で使用される文章やテキストデータに含まれる他の印象表現語の印象データを統合することで1つの印象データを生成し、当該印象表現語の印象データとして主観評価表現辞書4に登録する。
【0045】
(2)データ検索装置の詳細
図16はデータ検索装置の構成を概念的に表したものである。
この概念構成図に示されるように、データ検索装置は、入力手段1、検索条件文取得手段2、検索印象データ生成手段3、主観評価表現辞書4、主観評価情報辞書5、イメージ情報検索手段6、出力手段7、イメージ情報追加手段8及び印象表現語追加手段9を備えている。
入力手段1は、ユーザが希望する自然言語による検索条件文を入力するためのもので、キーボードや、音声認識装置が使用される。
検索条件文取得手段2は、入力手段1から入力された検索条件文を取得し、又は、有線接続や無線接続された外部装置から送信される検索条件文を通信手段を使用して取得する。外部装置としては、LAN接続された他のパーソナルコンピュータや、ワールド・ワイド・ウェブ(WWW)によりインターネットに接続された外部のパーソナルコンピュータなどが該当し、検索条件文取得手段は、これら外部装置からも検索条件文を取得可能に構成されている。
検索印象データ生成手段は、検索条件文取得手段で取得した検索条件文から、印象表現語等の抽出と、抽出した印象表現語に対応する印象データを主観評価表現辞書4から抽出し、検索印象データの生成を行う。
【0046】
主観評価表現辞書4は、例えば、ビールについての検索を行う場合に、希望するビールについてのイメージや感覚等の印象を自然言語で表現する場合に使用される印象表現語を各カテゴリ毎に分類して格納した辞書である。ここで印象表現語とは、検索対象となるイメージ情報の物理的な特徴ではなく、直感的な印象を「やわらかい」、「クリアな」等の形容詞や形容動詞によって表現する言葉(感性語)である。
ここで検索対象となるイメージ情報として取り扱えるのは、主観的類似性によってその相対関係を表現できるデータ形式すべてであり、例えば、動画、静止画などの画像の他に、音楽データや、音声データ、出版物等のテキストデータそのもの、その他の信号データ、また、これらを要素とするコンテンツも含まれる。
図17は主観評価表現辞書4の内容を概念的に表したものである。
この図17に示されるように、主観評価表現辞書は、ビール、ワイン、日本酒、映画、テレビ番組情報、Web上の旅行情報、オンラインショッピング等の、検索対象となるイメージ情報に対する各種カテゴリ毎に分類されている。そして、各カテゴリに属するイメージ情報の印象を表すのに用いられる印象表現語、具体的には形容詞・形容動詞に代表される表現語と程度副詞(「やや」「かなり」などの程度を指し示す副詞)、さらに印象の要因と強く結びついている名詞・固有名詞等が予め各カテゴリ毎に収集され、主観評価表現辞書に格納される。
【0047】
一方、各カテゴリに対して、そのカテゴリに属するイメージ情報に対して、主観的な類似性を表す要素(主観的類似性要素)を抽出する。例えば、対象とするイメージ情報のカテゴリを映画とすると、作品の性質を「スリル度」、「感動度」、「コメディ度」等の主観的類似性要素を抽出する。また、カテゴリ「ビール」に対しては、図17に示されるように、「こく」「キレ」「うまみ」「のどごし」「爽快感」等の主観的類似性要素が抽出されている。
そして、各印象表現語に対して主観的類似性要素の強さを指定することで、各印象表現語に対する印象データ(主観的類似性要素を座標軸とする座標空間に布置される、多次元の座標値(ベクトル)が決定されている。すなわち、収集した印象表現語に対して、個々の表現が主観的な類似性要素の強さを指定する、すなわち印象データ空間の特定の範囲を指し示すという仮説に基づいて、各類似性要素の相対的なレベル値が与えられている。
例えば、図17に示されるように、カテゴリ「ビール」に対する印象表現語「コクのある」には、主観的類似性要素「コク」の相対値が3、主観的類似性要素「キレ」の相対値が0、…という印象データが与えられている。
【0048】
図18は、主観的類似性要素を座標軸とする座標空間と、この座標空間に布置された各印象表現語に対する印象データを例示したものである。この図18では、ビールの座標空間を、コク、キレ、うまみの主観的類似性要素3要素を座標軸として表現し、印象表現語「クリーミーな」「まろやかな」「ドライな」に対する印象データを布置したものである。
この図18に示されるように、各印象表現語は、そのカテゴリに属するイメージ情報に対して抽出される主観的類似性要素を座標軸とし、各座標値を要素とする印象データ(ベクトル)で表現される。
【0049】
なお、図17に例示されるように、実際の印象表現語は、各主観的類似性要素の相対値を示す座標値の他に、印象表現語に含まれる範囲を示す範囲データが付属している。従って印象表現語は、各主観的類似性要素の座標値を中心とする範囲(座標値を中心とする一定の範囲)で囲まれる印象データ空間で指定されるようになっている。
図19は、印象表現語の印象データ空間を2次元の座標で表したものである。この図19に例示されるように、例えば、カテゴリ「ビール」の印象表現語「クリーミーな」は、主観的類似性要素「コク」に対して座標値4を中心とするプラスマイナス2の範囲、すなわち2〜6の範囲で指定され、また、主観的類似性要素「キレ」に対して座標値−2を中心としてプラスマイナス2の範囲、すなわち−4〜0の範囲で指定される。
このように、印象表現語の印象データは各座標軸(主観的類似性要素)に対して一定の範囲を有することで、座標空間上の点で表されるのではなく、座標空間上の一定空間(容積)で表すことができ、この印象表現語の印象データ空間内に含まれるイメージ情報を検索候補のイメージ情報としてリストアップすることができる。このように印象表現語の印象データ空間内のイメージ情報をリストアップすることで、全イメージ情報に対する印象データとの類似度を判断する必要がなくなり、リストアップしたイメージ情報に対する印象データとの類似性を判断すればよく、判断を高速化することができる。
【0050】
主観評価情報辞書5には、検索対象に関するデータが格納されており、各イメージ情報に対する印象データと付属情報が、カテゴリ毎に分類され格納されている。主観評価情報辞書5におけるカテゴリは、主観評価表現辞書4におけるカテゴリと同一であり、同一カテゴリの範囲で検索が行われるようになっている。
図20は主観評価情報辞書5の内容を概念的に表したものである。
この図20に例示されるように、各イメージ情報に対する印象データは、印象表現語に対する印象データと同様に、共通の主観的類似性要素からなる座標軸上の値を要素とするベクトルで表現される。すなわち、イメージ情報「アサヒスーパードライ」の印象データは、主観的類似性要素「コク」「キレ」「うまみ」…の各座標値を要素としてベクトル(3,4,2,3.5,3.5,…)で表現される。
同様に、「アサヒ黒生」「アサヒファーストレディー」「アサヒスーパープレミアム」「アサヒ生ビールダンク」(いずれも、アサヒビール株式会社の登録商標又は商標)、「キリンラガービール」「キリン一番絞り〈生〉ビール」「キリン一番絞り 黒生ビール」「キリンビール工場 〈生〉」「キリンブラウマイスター」(いずれも麒麟麦酒株式会社の登録商標又は商標)も、各主観的類似性要素の値を要素とするベクトルで表現される。
なお、イメージ情報に対する印象データの各座標値には、印象表現語の場合と異なり、範囲データが付属していない。
従って、主観的類似性要素を座標軸とする多次元座標空間にイメージ情報が布置されており、座標空間のなかである幅を持った領域(印象データ空間)を指定することで、その印象データ空間内に布置されているイメージ情報を検索(リストアップ)することができる。
一方、付属情報としては、数値データ等の客観的特徴条件、対象の画像データ、説明文等のテキストデータが各イメージ情報毎に格納されている。付属情報には、その他イメージ情報を印象する要因となる各種データが様々なかたちで関連情報として格納される。
【0051】
付属情報として主観評価情報辞書5に格納される客観的特徴条件は、イメージ情報の物理的な特徴データを意味し、定量的で計測可能な数値データのことをいう。また、イメージ情報をその性質・用途などによって分類したカテゴリ情報も客観的特徴条件に該当する。
例えば、画像をイメージ情報とした場合、色・形などが該当し、乗用車をイメージ情報とした場合、排気量、燃費、重量などが該当する。
客観的特徴条件は、イメージ情報の検索の際に、制約条件としてイメージ情報を絞り込むために使用される。
【0052】
イメージ情報を印象する要因となる各種データとしては、人名や商品名等で、それ自体がある種の強い印象を持っているもや、画像の構成要素であるプリミティブな図形の印象データ等が該当する。例えば映画作品をイメージ情報とする場合、作品自体の印象よりも主演俳優の印象がより支配的であることがあり、このような場合に、映作品の解説文から抽出された印象表現語や、シーン画像から推定された印象データよりも、主演俳優等に付与された印象データを引用して、作品の印象データを生成する方が主観的な類似性をより反映したものとなる場合があるため、主演俳優名等が付属情報として格納される。
【0053】
また図17及び図20に示されるように、主観評価表現辞書4及び主観評価情報辞書には、各カテゴリに含まれる名詞等のカテゴリ分類情報が格納されている。例えば、カテゴリ「ビール」を判断するためのカテゴリ分類情報として「ビール」が格納され、カテゴリ「ワイン」のカテゴリ分類情報として「ワイン」が格納されている。各カテゴリを示す名詞そのものがカテゴリ分類情報として格納される他、例えば、カテゴリ「ワイン」に対して「ボルドー」や「ボージョレ・ヌーボー」等の関連語や、「(ぶどう+ブドウ+葡萄)×醸造」といった条件式等もカテゴリ分類語として格納されている。他のカテゴリに対しても関連語や条件式がカテゴリ分類情報として格納されている。
このように、カテゴリ分類情報が主観評価表現辞書4に格納することで、検索処理、イメージ情報追加処理、印象表現語追加処理において、一致する(又は条件式を満たす)名詞等がテキストデータ中に含まれる場合に、対応するカテゴリに自動的に分類することができる。
【0054】
イメージ情報検索手段6(図16)は、検索印象データ生成手段で生成された検索印象データ(主観的類似性要素のレベル値のセット)と客観的特徴条件を検索キーとして、主観評価情報辞書5に格納されている各種イメージ情報を検索する。
すなわち、主観評価情報辞書5に登録されているイメージ情報を客観的な特徴条件を制約条件として絞り込んで、その中でレベル値セットの示す範囲にあるイメージ情報を抽出し、レベル値とイメージ情報の印象データの類似性判断を行い、より類似性の高いイメージ情報順に検索結果として出力するようになっている。
【0055】
出力手段7は、イメージ情報検索手段6で検索された検索結果を出力する。出力手段7による検索結果の出力は、検索されたイメージ情報を表示装置に出力し、印刷装置に印刷出力することにより行われる。
【0056】
イメージ情報追加手段8は、新たなイメージ情報に対して、その印象データを生成し付属情報と共に主観評価情報辞書5に格納する。新たなイメージ情報の印象データは、そのイメージ情報に付属するテキストデータから、主観評価表現辞書4に格納されている印象表現語を抽出し、その印象表現語の印象データを使用して生成する。また。主観評価情報辞書5に登録されているイメージ情報の客観的特徴条件と、新たなイメージ情報に対する客観的特徴条件とから、既登録イメージ情報の印象データを生成するようになっている。
このように、イメージ情報追加手段8により、テキストデータや客観的特徴条件からイメージ情報を新たに追加できるので、主観評価情報辞書を容易に充実させることができる。
【0057】
印象表現語追加手段9は、未登録の印象表現語について、その印象データを生成して主観評価表現辞書4に追加登録する。印象表現語追加手段9による新たな印象表現語の追加は、イメージ情報の検索の際に入力された自然言語による文章中や、イメージ情報追加手段8において未登録の印象表現語がイメージ情報に対するテキストデータ中に未登録の印象表現語が存在した場合に行われるようになっている。
このように、印象表現語追加手段9により自動的に新たな印象表現語が主観評価表現辞書4に登録されるので、データ検索装置が使用されればされるほど充実した主観評価表現辞書4になる。特に、ユーザのイメージ情報に対する感じ方や感性、更にそれを表現した文章も多種多様であるため、検索過程で新たな印象表現語を収集し追加することで、より多くのユーザの感性や表現に対応可能な主観評価表現辞書4とすることができる。
【0058】
ところで、以上に説明した本出願人に係る特願平11−281201(未公開)のデータ検索装置の主観評価表現辞書4、主観評価情報辞書5は、印象表現語と名詞句がセットとして記憶されていないので、評価視点が定まらないという問題があった。即ち、例えば、ユーザが「広い部屋」などと検索文章を作成して検索すると、評価視点が定まらないために、「広いエントランス」や「広いバスルーム」などの情報もヒットしてしまう。
そこで、第2の実施の形態では、主観的類似要素を印象表現語と名詞句のセットを用いて生成することにした。
【0059】
特願平11−281201のデータ検索装置(以下前回のデータ検索装置)の主観評価表現辞書4(以下単に表現辞書4と記す)は、例えば、ビールに対して、うまみのある、キレのある、コクのある、クリーミーな、なの印象表現語に対して印象データが設定されていたが、第2の実施の形態の表現辞書4は、図23に示したように、例えば、印象表現語「広い」に対しては、「部屋が広い」、「バスルームが広い」などと、印象表現語と名詞句のセットが印象データを有している。即ち、主観的類似要素が印象表現語と名詞句のセットによって構成されている。また、「広いバスルーム」などの印象表現語と名詞句のセットは主観的特徴要素であるが、値が5±3の範囲をとる。これは、前回のデータ検索装置の表現辞書4で、主観的特徴要素で「コク」が3±2の範囲を持っていたものに対応するものである。
【0060】
一方、前回のデータ検索装置における主観評価情報辞書(以下単に情報辞書5と記す)は、各イメージ情報ごとに作成された主観的類似性要素は、例えば、「コク」、「キレ」、「うまみ」などの印象表現語に対して印象データが作成されている。一方、第2の実施の形態に情報辞書5は、図24に示したように、主観的類似性要素が「バスルームが広い」、「部屋が広い」などと印象表現語と名詞句のセットに対して印象データが作成されている。
このように、第2の実施の形態では、例えば「部屋が広い」、「バスルームが広い」といった評価視点を持った主観的類似性要素によってベクトル空間を構成することができる。
つまり、図18の例を用いると情報辞書5では、、「まろやかな」、「コク」、「ドライな」という主観的類似性要素によって空間が張られているが、第2の実施の形態では、更に評価視点を明確にして、「まろやかなにおい」、「まろやかな味」、「コクのある味」、…などの印象表現語と名詞句のセットによって空間が張られることになる。
【0061】
このように、前回のデータ検索装置では、単に「広い」など評価視点を定めずに、主観的類似性要素を定めていたが、第2の実施の形態では、更に評価視点を明らかにして「バスルームが広い」、「部屋が広い」などのように、印象表現語と名詞句をセットにして主観的類似性要素を構成したため、検索の精度を高めることができる。
即ち、ユーザが「広い部屋のホテル」と検索要求文章を作成した場合、主観的類似性要素の「部屋がひろい」の成分が5±3の値を持つ(統合した値)イメージ情報はヒットするが、これに該当せず、「バスルームが広い」の成分が5±3のイメージ情報はヒットしない。
【0062】
以上に述べたように、第2の実施の形態は、前回のデータ検索装置の主観的類似性要素を印象表現語から構成されていたものを印象表現語と名詞句のセットにしたものである。その他の検索の原理などは、前回のデータ検索装置と同じである。
【0063】
図22は、前回のデータ検索装置に、第1の実施の形態で説明した検索要求文生成システム37(図2)と検索結果表示システム61(図11)を組み込んだところを示した図である。なお、前回のデータ検索装置は、印象表現語と名詞句のセットによって主観的類似性要素を取り扱えるようになっている。
検索要求文生成システム37は、入力手段1から取得した情報により検索文を生成し、これを検索条件文取得手段2に出力する。この検索文では、印象表現語と名詞句がセットとなっており、程度副詞があれば、これもセットとして取り出されている。
一方、検索結果表示システム61は、検索結果をイメージ情報検索手段6から受け取り、出力手段7に出力する。
【0064】
第2の実施の形態では、データ検索装置に対して検索要求文生成システム37と検索結果表示システム61を用いることができ、評価視点を定めてながら印象表現語によるデータ検索を行うことができる。
【0065】
(第3の実施の形態)
第2の実施の形態では、主観的類似性要素(座標軸)を、印象表現語とそれと強く結びついている名詞句(被修飾名詞句)のセットを用いて規定し、これによってイメージ検索を行う場合について説明したが、このシステムは、以下のような未解決の課題を持っていた。
【0066】
(1)検索要求文内の印象表現語に被修飾名詞句がない場合。
例えば、ホテルコンテンツにおいてイメージ検索する際に、ユーザが「広い」とのみクエリーを入力した場合、第2の実施の形態のデータ検索システムでは、評価視点がないと見なされ、「広い部屋」という表現(「部屋」という視点が明記されている)が記述されているイメージ情報の付属データ(コンテンツ内のデータ)が存在しても、それはヒットしない。
しかし、ホテルコンテンツにおいては、「広い」といえば「部屋」のことを表現している場合が多く、「広い」という検索要求文からは「部屋が広い」という記述を持つ付属データも検索されるべきである。
【0067】
例えば、検索要求文として単に「広い」と入力した場合、検索キー「広い」が生成され、「とても広い」とか、「とにかく広い!」などの表現が記述されている付属データが検索される。しかし、「とても部屋が広い」とか、「シングルルームが広い!」などと記述されている付属データは検索されない。
また仮に、検索要求文として「広い」が入力された場合に、自動的に「部屋が広い」といったように評価視点「部屋」を付加するとしても、例えばホテルコンテンツや交通機関の料金に関するコンテンツなど、コンテンツごとに評価視点(名詞句)を設定する必要がある。これをユーザに託するのは、ユーザにとって負担であり、また設定にはある程度の予備知識が必要となるので、困難と感じるユーザがいることも考えられる。
【0068】
(2)付属データ内の印象表現語が、これと強く結びついている名詞句を持たない場合。
例えば、検索要求文が「部屋が広い」であった場合、評価視点として「部屋」が取得され、付属データ内に「広い」とのみの記述され、評価視点がないデータは検索されない。
例えば、検索要求文として「部屋が広いホテルを探したい」と入力した場合、検索キー「部屋が広い」が生成され、「このホテルは部屋が広い」とか、「広い部屋だ」などと記述されている付属データが検索される。しかし、「とても広い」とか、「とにかくここは広い」などと記述された付属データは検索されない。そのため、各付属データの主観的類似性要素(座標軸)を設定する際に、「広い」という記述は「部屋が広い」と同じに扱って良い旨の情報が必要となる。
しかし、これはコンテンツによって評価視点は変わってしまうため、予め設定しておくことは難しい。
【0069】
(3)検索要求文及び付属データにおいて、視点を分けることによる弊害が起こる場合。
例えば、ホテルコンテンツにおいて「値段が安い」と「部屋が安い」とは、多くの場合同義である。しかし、既存のシソーラス辞書において「値段」と「部屋」が関連付けられていないと考えられるので、多くの場合「値段が安い」と「部屋が安い」が別の意味として解釈される。
例えば、検索用要求文として「値段が安いホテルを探したい」を入力した場合、検索キー「値段が安い」が生成され、「このホテルは値段が安い」とか、「安い利用金で泊まれる」などと記述された付属データが検索される。しかし、「このホテルの部屋は安い」とか、「とにかくここは安い!」などと記述された付属データは検索されない。
【0070】
更に、この問題はコンテンツによって異なった様相を示す。
例えば、ホテルコンテンツにおいては、「安い」といえば「部屋の料金」であるが、交通機関の料金に関するコンテンツにおいては、「バス」が安いのか「電車」が安いのかを区別すること(評価視点を区別すること)が重要となってくる。
表現語1つ1つに対してユーザに評価視点を分けるべきか否かの判断をゆだねるのは、ユーザにとってかなりの負担となってしまう。
このため、検索要求文に対応する場合、及び主観的類似性要素(座標軸)を設定する際の両方において評価視点を分ける必要があるか否かということを判定する必要がある。
この判定は、上記(1)の検索要求文内の印象表現語に被修飾名詞句がない場合、及び(2)の付属データ内の印象表現語が、これと強く結びついている名詞句を持たない場合も同様に必要である。
【0071】
そこで、本実施の形態では、以下の4点を目標とする。
(1)検索要求文において印象表現語に強く結びついた名詞句がない場合に、評価視点を自動的に判定する。
(2)付属データにおいて、印象表現語に強く結びついた名詞句がない場合に、主観的類似性要素(座標軸)設定の際に評価視点を自動的に判定する。
(3)検索要求文において評価視点を分ける必要がないものを自動的に判別する。
(4)付属データにおいて、評価視点を分ける必要がないものを自動的に判別する。
【0072】
以下に、本実施の形態について説明する。
まず、目的(1)、(2)を達成するために、本実施の形態では、後に説明するフラグ設定テーブル111(図33)を用いて、強く結びついた名詞句がない印象表現語に対し、評価視点を自動的に設定する。
そこで、まず、このフラグ設定テーブル111を生成するフラグ設定システム100について説明する。フラグ設定システム100は、プログラム部19(図1)に格納されたフラグ設定プログラムがCPU13によって実行されることにより、ソフトウェア的に実現することができる。
【0073】
図26は、フラグ設定システム100の構成の1例を示した図である。
フラグ設定システム100は、マージモジュール90、印象表現語・名詞句セット抽出モジュール91、統制モジュールA92、評価視点選定モジュール93、統制モジュールB、名詞句ピックアップモジュール95、計算モジュール96、最多頻度名詞句モジュール97、フラグ設定モジュール98などから構成されている。
【0074】
マージモジュール90は、、付属データ(コンテンツ内全データ)を全てマージしてマージデータを生成する。
【0075】
印象表現語・名詞句セット抽出モジュール91は、生成したマージデータから印象表現語、及びそれと強く結びついている名詞句をセットで取り出す。
図27は、マージデータと抽出した印象表現語と名詞句のセットの1例を示した図である。
図は、一例としてホテルコンテンツに含まれるデータ1、データ2、・・・、をマージしたマージデータから、「広く/部屋」、「静かな/環境」、・・・、などといった、印象表現語と名詞句のセットを抽出したものを示している。
なお、本実施の形態では、予めホテルコンテンツ、ワインコンテンツ、・・・、などと個々のコンテンツごとに処理を行うものとする。
【0076】
統制モジュールA92は、印象表現語・名詞句セット抽出モジュール91で抽出した印象表現語に対して表記統制を行う。表記統制は、例えば、印象表現語が形容詞又は形容動詞の活用形である場合には、これを終止形にし、表記揺れがある場合は、表記揺れ辞書を参照しながら、読みが同じで同義である漢字、平仮名、カタカナを何れかに正規化表現へ統制する。
【0077】
評価視点選定モジュール93は、印象表現語・名詞句セット抽出モジュール91が抽出した印象表現語と名詞句のセットのうち名詞句のみに着目し、各名詞句ごとに出現頻度を抽出する。そして、出現頻度が予め設定しておいた閾値以上である名詞句を、印象表現語が被修飾名詞句を伴わない場合の評価視点として選定する。
即ち、印象表現語と強く結びついた名詞句がない場合は、ここで選定された名詞句の何れかが付加されることになる。
【0078】
図28は、印象表現語・名詞句セット抽出モジュール91が抽出し印象表現語と名詞句のセットに含まれる名詞句を出現頻度順にソートしたものの1例を示している。
図に示したように、印象表現語と名詞句のセットに含まれる被修飾名詞句「部屋」の出現頻度が50であり、最上位にランクされている。続いて、「ホテル」の出現頻度が43、「感じ」の出現頻度が15、・・・、となっている。
そして、本実施の形態では、出現頻度の閾値を8とし、これ以上の出現頻度の名詞句を評価視点として選定した。
【0079】
統制モジュールB94は、シソーラス辞書を参照し、評価視点選定モジュール93で決定された視点を最上位として、その範囲内で上位語に統制する。また、シソーラス辞書を同義語辞書があれば正規化表記へ統制する。
上位語や正規化表記に統制された名詞句は、名詞グループを構成する。例えば、「風呂」や、「風呂」に統制された「銭湯」、「バスルーム」などは、「風呂」グループを成す。
【0080】
図29は、印象表現語と名詞句のセットの統制を説明するための図である。
抽出された印象表現語と名詞句のセット101は、「広く/部屋」とか「静かだ/部屋」、あるいは図示しないが「大浴場」などと表記揺れや下位語が含まれている。
まず、表記揺れ統制辞書102によって、「ひろい」→「広い」、「あまい」→「甘い」、「クサい」→「臭い」などと、表記揺れが統制される。
【0081】
次に、シソーラス辞書103によって、例えば「大浴場」、「銭湯」などの下位語を「風呂」などの上位語に統制し、更に、「バスルーム」などの同義語を有するものは、代表語である「風呂」に統制するなどして、正規化表記へ統制して、統制後の印象表現語と名詞句のセット104を得る。
【0082】
名詞句ピックアップモジュール95、コンテンツ内に存在する印象表現語が係る名詞句を各印象表現語ごとにピックアップし、名詞句を頻度降順で並び替える。この際、名詞句と強く結びついていない印象表現語の出現頻度も数える。
【0083】
図30は、印象表現語ごとに、当該印象表現語に係る名詞句をピックアップし、これを頻度降順で並び替えたものの一例を示した図である。
例えば、印象表現語「広い」に関しては、当該印象表現語が強く係る名詞句がないものの出現頻度が最も高く52となっている。引き続き「部屋」が49、「風呂」が19、・・・、などとなっている。
【0084】
計算モジュール96は、各印象表現語ごと、及び各被修飾名詞句ごとに、次の式を計算する。
[印象表現語Tにつく被修飾名詞句Nの頻度]/([印象表現語Tの頻度]−[被修飾名詞句がない場合の頻度]) ・・・(1)
式(1)の算出値が大きい名詞句ほど、その印象表現語に結びつく頻度が高いことになる。
【0085】
図31は、各印象表現語に対する式(1)の計算結果の一例を示した図である。
各印象表現語に係る名詞句の式(1)の算出結果が示されている。
例えば、印象表現語「広い」の場合、被修飾名詞「部屋」の算出結果が0.333で最も値が大きく、引き続き「風呂」が0.129、「調度品」が0.034、・・・、などとなっている。
これらの表から、例えば印象表現語「広い」に関しては名詞「部屋」が結びつく頻度が高く、印象表現語「便利」に関しては名詞「交通」が結びつく頻度が高いことがわかる。
【0086】
最多頻度名詞句モジュール97は、計算モジュール96の算出結果から、各印象表現語について最多出現頻度の名詞のみを取り出す。
次に、計算値に所定の閾値を設定し、その閾値以上の計算値を持つ印象表現語を特定する。
検索要求部内の印象表現語に強く結びついている名詞がない場合、あるいは付属データ内の印象表現語に強く結びついている名詞がない場合、でかつこれらの印象表現語に関する計算値が先の閾値よりも大きい場合は、当該印象表現語に強く結びつく名詞句(評価視点)として、計算モジュール96で求めた最多頻度の名詞句を割り当てるものとする。
【0087】
図32の表110は、各印象表現語について最多頻度の名詞を算出結果の数値の降順に並べたものを示している。
図に示したように、算出結果の数値が最も大きいのは印象表現語「きれいな」に結びついた被修飾名詞「部屋」で、算出結果の数値が0.458である。引き続き「安い」に結びつく「値段」、「清潔な」に結びつく「部屋」、・・・、の順となっている。なお、本実施の形態では、一例として0.100を算出結果の閾値とした。
そして、例えば印象表現語「きれいな」が被修飾名詞句を伴わないで、検索要求分に現れたり、あるいは付属データに現れた場合は、図32で「きれいな」とセットになっている被修飾名詞「部屋」が評価視点として結び付けられることになる。
【0088】
フラグ設定モジュール98は、主観的類似性要素(座標軸)の各座標軸に対して、その座標軸に値をもつ印象表現語がステップ5で設定した各名詞句グループに属する被修飾名詞句を持つ場合にその座標軸の値を有効とするか否か、あるいは強く結びつく名詞句がない場合に、その座標軸の値を有効とするか否かをフラグで設定する。
「名詞なし」に対しては、図32の表で算出結果が設定した閾値以上であったものに対応するものにフラグを立てる。
【0089】
図33は、各座標軸の値を有効とするか否かを表したフラグ設定テーブル111の1例を示した図である。ただし、各種類ある座標軸のうち一部のみ示してある。
表中Tは、フラグを立ててその座標軸を有効にするものとし、Fは、フラグを立てずにその座標軸を無効にすることを表す。
【0090】
例えば、印象表現語と名詞句のセットを取得した場合、その名詞句が部屋グループに属するば場合は、「部屋の広さ」座標軸と「清潔さ」座標軸を有効とし、他の座標軸を無効とする。
また、名詞句が風呂グループに属する場合は、「風呂のひろさ」座標軸を有効とし、他の座標軸を無効とする。
【0091】
強く結びつく名詞句を持たない印象表現語を取得した場合は、表101で閾値以上の計算値を持つ、印象表現語で規定される座標軸、あるいは印象表現語と名詞句で規定される座標軸のフラグを立てる。
例えば、フラグ設定テーブル111では、「部屋の広さ」座標軸、「風呂の広さ」座標軸、「安さ」座標軸、「便利性」座標軸、「清潔さ」座標軸がある。このうち、「部屋の広さ」座標軸は、表110で印象表現語と名詞句のセット「広い/部屋」が閾値以上であるのでフラグを立てる。
また、「安さ」座標軸及び「清潔さ」座標軸は、表110で印象表現語「安い」と「清潔な」が閾値以上であるのでフラグを立てる。
【0092】
フラグ設定テーブル111のフラグは次の様に機能する。
(1)検索要求文で評価視点を自動設定する場合のフラグの機能。
検索要求文において「広い」という、強く結びつく名詞句(評価視点)を持たない印象表現語がクエリーとして入力された場合には、フラグ設定テーブル111で、「部屋の広さ」座標軸はフラグが立っているので有効であり、一方「風呂の広さ」座標軸はフラグが立っていないので無効となる。そのため、検索要求分に「部屋」という評価視点を自動的に設定することができる。
これによって、クエリー「広い」が、「部屋の広さ」座標軸に値を持つものを検索することを表すということが自動的に判断可能となる。
【0093】
(2)付属データの主観的類似性要素(座標軸)設定時におけるフラグの機能。
例えば、付属データの中に強く結びつく名詞句を持たない印象表現語「広い」が現れた場合、この付属データは、フラグ設定テーブル111でフラグの立っている「部屋が広い」座標軸には値を持つことができるが、フラグの立っていない「風呂が広い」座標軸には値を持つことができない。
【0094】
このように、フラグ設定テーブル111は、予め設定されている印象表現語と名詞句のセットを記憶したデータベースと見ることができる。即ち、クエリー、又は付属データに含まれるテキストデータに、結びつく名詞句を持たない印象表現語があった場合、フラグ設定テーブル111により、適当な名詞句(評価視点)を印象表現語に付加することができる。
【0095】
次に、目的(3)、(4)を達成するために、後に説明するフラグ設定テーブル(図35)を用いて、強く結びついた名詞句がない印象表現語に対し、評価視点を分ける必要の有無を判別する。
先に説明したマージモジュール90〜名詞句ピックアップモジュール95を用いて図30に示した各表を取得する。
次に、各印象表現語ごとに(被修飾名詞句なしの頻度)/(その印象表現語の出現頻度)の値を算出する。この算出値が大きいほど、その印象表現語が、強く結び付く名詞句を伴わずに単独で使用される頻度が高いことを意味する。
【0096】
印象表現語が単独で使用される頻度が高いということは、その語のみである意味を表すことができるということであり、評価視点を分ける必要がないと考えられる。
即ち、印象表現語と名詞句のセットにおける名詞句がどの名詞グループに属していても、その印象表現語に関係する全ての座標軸に値を持たせれば良く、あるいは、強く結びついた名詞がない印象表現語の場合も、その印象表現語に関係する全ての座標軸に値を持たせれば良い。
【0097】
図34は、各印象表現語ごとに(被修飾名詞句なしの頻度)/(その印象表現語の出現頻度)の値を算出し、これら印象表現語を算出結果の降順に並べた表120を示したものである。
表120に示したように、「清潔な」、「便利な」、「安い」などの印象表現語が単独で使用される頻度が高い。
そして、本実施の形態では、0.4を閾値として設定し、この値よりも算出結果の値が大きい印象表現語は、評価視点を分けないものとした。
【0098】
図35は、各座標軸の値を有効とするか否かを表したフラグ設定テーブル121を示した図である。ただし、各種ある座標軸のうち一部のみ示してある。
表中Tは、フラグを立ててその座標軸を有効にするものとし、Fは、フラグを立てずにその座標軸を無効にすることを表す。
【0099】
表120から印象表現語「清潔な」、「便利な」、「安い」の算出結果は閾値より大きいので、これらの印象表現語に関しては名詞グループによる座標軸の選択(評価視点の設定)を行う必要が無く、これらの印象表現語に関しては全ての名詞グループ及び名詞がない場合についてフラグを立てる。
「部屋の広さ」座標軸、「風呂の広さ」座標軸に関しては、表120における印象表現語「広さ」が閾値よりも小さいので、評価視点による座標軸の選別を行う必要がある。そのため、「部屋の広さ」座標軸に関しては部屋グループの名詞句に関してフラグが立っており、「風呂の広さ」座標軸に関しては風呂グループの名詞句に関してフラグが立っている。
【0100】
以上のフラグ設定テーブル121により設定されたフラグは、次の様に機能する。
(1)検索要求文で評価視点を自動設定する場合のフラグの機能。
検索要求文において例えば印象表現語「安い」が含んだクエリーが入力された場合、それがどのような名詞句と強く結びついていようが又は、強く結びつく名詞句が無くても「安さ」座標軸に値を持つものを検索するということを自動的に判断可能となる。
(2)付属データの主観的類似性要素(座標軸)設定時におけるフラグ機能の役割
同様に、「安さ」座標軸に値を持つ「安い」という印象表現語がどのような名詞句と強く結びついていようが、又は、強く結びつく名詞句が無くても「安さ」座標軸に値を持たせることが可能となる。
【0101】
このように、フラグ設定テーブル121は、予め設定されている印象表現語と名詞句のセットを記憶したデータベースと見ることができる。即ち、クエリー、又は付属データに含まれるテキストデータに、結びつく名詞句を持たない印象表現語があった場合、フラグ設定テーブル111により、適当な名詞句(評価視点)を印象表現語に付加することができる。また、フラグ設定テーブルによれば、印象表現語に名詞句を結びつけるか否かを判断することができる。例えば、「広さ」には名詞句を結び付け、「安さ」には名詞句を結びつけないと判断することができる。
【0102】
以上に説明したフラグ設定テーブル111、121は何れも第2の実施の形態のデータ検索装置(図16)で、次のように利用することができる。
ユーザが入力手段1に入力した自然言語による検索要求文に名詞句と結びつかない印象表現語が含まれている場合、フラグ設定テーブル111、121を参照して当該印象表現語に所定の名詞句を結び付け、当該印象表現語と名詞句のセットを生成することができる。そして、この印象表現語と名詞句のセットから検索要求文を生成し、イメージデータを検索することができる。
第2の実施の形態では、検索要求文に名詞句と結びつかない印象表現語があった場合、評価視点(印象表現語と結びついた名詞句)が定まらず、検索を行うことが困難であったが、本実施の形態では、フラグ設定テーブル111、121を用いて評価視点を自動的に補い、検索を行うことができる。
特に、フラグ設定テーブル121を用いると、検索要求文に名詞句と結びつかない印象表現語が含まれる場合に、この印象表現語に名詞句を結び付け、評価視点を設定するかしないかを判断することができる。
更に、本実施の形態では、付属データ中の印象表現語に結びついた名詞句を、コンテンツごとに最適なシソーラス(検索要求文に自動設定する評価視点)に統制することにより、より適切な検索を行うことが可能となる。
【0103】
イメージ情報検索手段6は、フラグ設定テーブル111、121を用いて何れの座標軸を有効とするかを判断することができる。
例えば、ホテルコンテンツを格納した主観評価情報辞書5(図16)中に、例えば、「広さ」座標軸をもつ付属データがあったとする。印象表現語と名詞句のセット「部屋の広さ」を用いて生成された検索要求文が入力された場合、イメージ情報検索手段6は、「広さ」座標軸を有効にすることにより、この座標軸に値を持つ付属データをも検索することができる。これは、「広さ」座標軸に「部屋」という名詞句を付加して評価視点を与えたのと同等である。
第2の実施の形態では、付属データに名詞句と結びつかない印象表現語があった場合、評価視点が定まった検索要求文によって、この付属データを検索することは困難であったが、本実施の形態では、フラグ設定テーブル111、121を用いて付属データ中の名詞句を伴わない印象表現語に評価視点を自動的に補い、検索を行うことができる。
特に、フラグ設定テーブル121を用いた場合、印象表現語ごとに座標軸に名詞句を付加するか否かを判断することができる。
更に、本実施の形態では、検索要求文中の印象表現語に結びついた名詞句と、付属データ中の名詞句に結びつかない印象表現語に自動設定する評価視点をコンテンツごとに最適なシソーラスに統制することにより、より適切な検索を行うことが可能となる。
【0104】
なお、フラグ設定テーブル111、121の用途は、第2の実施の形態のデータ検索装置に限定するものではなく、広くデータ検索に用いることができる。
即ち、フラグ設定テーブル111、121を用いて検索要求文中の名詞句に結び付かない印象表現語に、所定の名詞句を付加して印象表現語と名詞句のセットを生成し、これを用いて検索を行ったり、また、検索対象であるコンテンツ中に名詞句に結びつかない印象表現語があった場合、フラグ設定テーブル111、121を用いてこの印象表現語に適当な名詞句を結び付け、これを検索の対象とすることなどができる。
【0105】
以上に説明したように第3の実施の形態では、該当コンテンツ内全被修飾名詞句(何らかの印象表現語と強く結びついている名詞句)を取得し頻度情報を入手する。そして、予め設定した閾値以上の被修飾名詞句を視点と設定する。これによって、該当コンテンツにおいて必要な視点を自動的に設定する機能を実現することができる。
また、シソーラスによる名詞句の統制時、上記方法によって決定した視点を基準としてシソーラス統制を行うようにした。即ち、その基準を最上階層とし、それらの下位にあたる名詞句があれば、基準となる名詞に統制する。これによって、コンテンツごとに最適なシソーラス統制を行うことができる。
更に、名詞句がない印象表現語、及び視点を分ける必要がない印象表現語をコンテンツごとに適切に自動的に判断するために、ある印象表現語と強く結びつく名詞句頻度を抽出した。
そして、名詞句がない場合、及び視点を分ける必要がない場合の処理を実現するために、1つの座標軸に視点を1つだけ設定するのではなく、複数の視点を設定できるフラグを設定した。
【0106】
【発明の効果】
本発明によれば、検索要求と結果の一致を明確にすることができる検索結果提示装置、検索結果提示方法、検索結果提示プログラムなどを提供することができる。
【図面の簡単な説明】
【図1】第1の実施の形態に係るデータ検索装置を示したブロック図である。
【図2】検索要求文生成システムを示したブロック図である。
【図3】マージモジュールの機能を説明するための図である。
【図4】統制モジュールの機能を説明するための図である。
【図5】ソートモジュールが生成したソートデータを示した図である。
【図6】ソートモジュールが生成した視点データを示した図である。
【図7】表示装置に表示された検索画面を示した図である。
【図8】文章入力欄に検索情報を入力する場合を示している。
【図9】文章入力欄に具体的データ名を入力したところを示している。
【図10】検索結果の表示画面を示した図である。
【図11】検索結果表示システムの構成を示したブロック図である。
【図12】検索結果表示システムがデータ処理する様子を示した図である。
【図13】一例としてワインコンテンツを検索する場合の検索入力画面を示した図である。
【図14】検索結果画面を示した図である。
【図15】検索文生成システムと検索結果表示システムの動作を説明するためのフローチャートである。
【図16】主観的特徴要素生成システムを組み込む元となるデータ検索装置の構成を示したブロック図である。
【図17】同上、データ検索装置における主観的評価表現辞書の内容を概念的に表わしたものである。
【図18】同上、データ検索装置における主観的類似性要素を座標軸とする座標空間と、この座標空間に各印象表現語に対する印象データが布置された概念状態間を例示した説明図である。
【図19】同上、データ検索装置における印象表現語の印象データ空間を2次元の座標で表わした説明図である。
【図20】同上、データ検索装置における主観評価情報辞書の内容を概念的に表わしたものである。
【図21】同上、データ検索装置における主観的類似性要素を座標軸とする座標空間と、この座標空間に各イメージ情報に対する印象データが布置された概念状態を例示した説明図である。
【図22】同上、データ検索装置に検索要求文生成システムと検索結果表示システムを組み込んだ状態を示したブロック図である。
【図23】主観評価表現辞書の拡張例を示した図である。
【図24】主観評価情報辞書の拡張例を示した図である。
【図25】従来の検索装置での検索例を示した図である。
【図26】フラグ設定システムの構成の1例を示した図である。
【図27】マージデータと抽出した印象表現語と名詞句のセットを示した図である。
【図28】印象表現語と名詞句のセットに含まれる名詞句を出現頻度順にソートしたものの1例を示している。
【図29】印象表現語と名詞句のセットの統制を説明するための図である。
【図30】印象表現語ごとに、当該印象表現語に係る名詞句をピックアップし、これを頻度降順で並び替えたものの一例を示した図である。
【図31】各印象表現語に対する式(1)の計算結果の一例を示した図である。
【図32】各印象表現語について最多頻度の名詞を算出結果の数値の降順に並べたものを示している。
【図33】各軸の値を有効とするか否かを表したフラグ設定テーブルを示した図である。
【図34】各印象表現語ごとに(被修飾名詞句なしの頻度)/(その印象表現語の出現頻度)の値を算出し、これら印象表現語を算出結果の降順に並べた表を示したものである。
【図35】各座標軸の値を有効とするか否かを表したフラグ設定テーブルを示した図である。
【符号の説明】
1 入力手段
2 検索条件文取得手段
3 検索印象データ生成手段
4 主観評価表現辞典
5 主観評価情報辞典
6 イメージ情報検索手段
7 出力手段
8 イメージ情報追加手段
9 印象表現語追加手段
11 データ検索装置
12 中央処理部
13 CPU
14 ROM
15 RAM
16 入出力部
17 モデム
18 記憶装置
19 プログラム部
20 データ部
21 バスライン
24 表記揺れ統制辞書
25 シソーラス辞書
31 入力手段
32 マージモジュール
33 統制モジュール
34 名詞句頻度モジュール
35 ソートモジュール
36 クエリーツリー表示モジュール
37 検索要求文生成システム
41 マージデータ
42 印象表現語名詞句セットデータ
43 表記統制後データ
45 ソートデータ
46 視点データ
48 入力画面
49 フィーリング入力欄
50 文章入力欄
51 客観的情報入力欄
52 検索ボタン
61 検索結果表示システム
62 印象表現語名詞句副詞句セットモジュール
63 統制モジュール
64 差分抽出モジュール
65 強調モジュール
71 文章データ
72 セットデータ
73 統制データ
74 差分データ
77 検索結果画面
78 本文表示欄
79 要約欄
80 第1位検索結果表示欄
81 第2位検索結果表示欄
90 マージモジュール
91 印象表現語・名詞句セット抽出モジュール
92 統制モジュールA
93 評価視点選定モジュール
94 統制モジュールB
95 名詞句ピックアップモジュール
96 計算モジュール
97 最多頻度名詞句モジュール
98 フラグ設定モジュール
101 印象表現語と名詞句のセット
102 表記揺れ統制辞書
103 シソーラス辞書
104 表記統制後の印象表現語と名詞句のセット
110 フラグ設定システム
111 フラグ設定テーブル
121 フラグ設定テーブル
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a search request statement generation device, a search result presentation device, a search request statement generation method, a search result presentation method, a search request statement generation program, a search result presentation program, a data search device, a data search method, and a data search program. For example, the present invention relates to an image information search.
[0002]
[Prior art]
Various methods for searching image data such as images and videos have been proposed, and one of them is a search using impression expression words as a key.
For example, there is a data search device of Japanese Patent Application No. 11-281201 (unpublished) proposed by the present applicant. This search device is based on a technique of inputting impression expressions, degree adverbs, and objective characteristic conditions as search keys by text when searching for image information.
[0003]
[Problems to be solved by the invention]
However, this method includes the following problems.
First, it is difficult to create an appropriate search request sentence in the following cases.
For example, if the user does not grasp a clear subjective request that he / she desires, and if he / she can imagine his / her request only vaguely, it is difficult to express the search request by sentences.
[0004]
In addition, when the user cannot think of what subjective characteristics the subject matter in the content has, that is, when the user has not obtained detailed information about the target content, You may not know what subjective image the thing you have can have.
For example, in wine content, a user who is not familiar with liquors such as wine may not come up with an impression word such as “sweet” or “fruity” which is an index for selecting wine.
Further, for a user who is familiar with keyword searches such as a search site on the Internet, words related to feeling may be difficult to come up even though a noun phrase is conceived.
[0005]
In addition to this, for example, a problem also arises when the noun phrase (evaluation viewpoint) on which the impression expression word is applied is unclear. That is, when only the impression expression word is used as a search key, the user may implicitly recognize the object of the impression expression word, and the system may not be able to produce an appropriate result for the user's intention.
For example, as shown in FIG. 25, in the hotel content, even if the user implicitly recognizes and requests that “the room is large” as a search request, the system side does not intend the user only from “wide”. Even sentences such as “wide bathroom” and “wide entrance” are acquired.
[0006]
Further, for example, the data search device of Japanese Patent Application No. 11-281201 outputs the search results in the order of image information having higher similarity, but the display of the search results also includes the following problems.
First of all, it was difficult to know which part was hit. Unlike keyword search, data containing impression expression words with similar elements is also hit, so it is difficult to determine which word caused the hit only by highlighting where the character faces match.
[0007]
Also, the search results are difficult to understand at first glance, and the user's satisfaction was low. That is, even if attention is paid to the matching of the character faces, it is not possible to grasp each feature or difference, so the sense of satisfaction is lowered.
In addition, if the result of the search does not match the user's intention or there is no applicable result, a re-search is necessary, but when re-inputting, the same result is displayed and the relevant result is displayed. Search request sentences are difficult to come up with and are a burden on the user.
[0008]
Therefore, an object of the present invention is to provide a search result presentation device, a search result presentation method, a search result presentation program, and the like that can clarify the match between a search request and a result.
[0009]
[Means for Solving the Problems]
In order to achieve the above object, according to the first aspect of the present invention, search result acquisition means for acquiring search data assigned a search order, and document data included in the search data are acquired by the search result acquisition means. Document data acquisition means, extraction means for extracting impression expression words and noun phrases linked to the impression expression words for each search data from the document data acquired by the document data acquisition means, and extraction means Search using the control unit for controlling the impression expression word and the noun phrase extracted in the above, and the set of the impression expression word and the noun phrase controlled by the control unit. The impression expression word and the previous expression excluding the impression expression word and the noun phrase set included in the search data having the first search order from the set of the impression expression word and the noun phrase included in the data Difference means for acquiring a set of noun phrases for each search data of the second or lower search order, and the impression expression word and the noun phrase acquired by the difference means for the search data of the second or lower search order A search result presentation device characterized by comprising: a presenting means for presenting a set of
In the invention described in claim 2, when there is a degree adverb associated with the impression expression word and the noun phrase, the extraction means extracts the degree adverb as a set. A search result presentation device is provided.
In the invention according to claim 3, the emphasis presenting means for emphasizing and presenting at least one of the degree adverb, the impression expression word, or the noun phrase associated with the impression expression word included in the document data, Among the document data, a summary presentation means for presenting a summary of the document data using at least one of a degree adverb, the impression expression word, or a noun phrase linked to the impression expression word, The search result presentation device according to claim 1, further comprising at least one.
In the invention according to claim 4, the degree adverb, the impression expression word, or the impression expression word presented by at least one presentation means of the presentation means, the emphasis presentation means, or the summary presentation means The search result presentation device according to claim 3, wherein a search request sentence can be created using a noun phrase linked to.
According to a fifth aspect of the present invention, a search result is presented in a search result presentation device comprising a search result acquisition means, a document data acquisition means, an extraction means, a control means, a difference means, and a presentation means. A search result presenting method used when the search result acquisition means includes a first step in which the search result acquisition means acquires search data to which a search order is assigned, and the document data acquisition means in the first step. A second step of acquiring the document data included in the search data, and the extraction means is linked to the impression expression word and the impression expression word for each search data from the document data acquired in the second step. A third step of extracting a noun phrase as a set; a fourth step in which the control means controls the impression expression word and the noun phrase extracted in the third step; However, using the impression expression word and the noun phrase controlled in the fourth step, the search is performed from the set of the impression expression word and the noun phrase included in the search data of which the search order is second or lower. A set of the impression expression word and the noun phrase excluding the set of the impression expression word and the noun phrase included in the search data having the first rank is acquired for each search data of the second or lower search rank. And a sixth step in which the presenting means presents the set of the impression expression word and the noun phrase acquired in the fifth step with respect to the search data of the second or lower search rank. Provided is a search result presentation method characterized by comprising:
In the invention according to claim 6, a search result acquisition function for acquiring search data assigned a search order, a document data acquisition function for acquiring document data included in search data by the search result acquisition function, An extraction function for extracting a set of impression expression words and noun phrases linked to the impression expression words for each search data from the document data acquired by the document data acquisition function, and the impression expression words extracted by the extraction function And the control function for controlling the noun phrase, and the impression expression word included in the search data in which the search rank is second or lower using the impression expression word and the noun phrase set controlled by the control function And the set of the noun phrase and the noun phrase excluding the set of the impression expression word and the noun phrase included in the search data having the first search rank from the set of noun phrases A difference function that is acquired for each search data that is ranked second or lower, and a presentation function that presents the set of impression expression words and noun phrases acquired by the difference function with respect to search data that is second or lower in the search order And a search result presentation program for realizing the above on a computer.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described in detail with reference to FIGS. FIG. 1 is a diagram showing a configuration of a data search apparatus 11 equipped with a search request sentence generation system and a search result presentation system according to the first embodiment. The data search device 11 performs image information search as an example, but is not limited to this. For example, the data search device 11 is widely used in search devices using impression expression words (sensitivity words) such as “wide” and “sweet”. Generally applicable.
The data search device 11 includes a central control unit 12, an input / output unit 16, a modem 17 storage device 18, and the like.
The input / output unit 16 is connected to an input device such as a keyboard, a microphone, and a mouse, an output device such as a display device, a printer, and a speaker, or an input / output device such as a magnetic disk drive. Then, the user can input a search request sentence via the input device or obtain a search result via the output device. Further, data can be written to and read from a magnetic disk or the like using a disk drive or the like.
[0011]
The storage unit 18 is a storage device configured by, for example, a hard disk or other nonvolatile memory. The storage unit 18 includes a search request generation program, a search result display program, a search program such as an image information search program, a program unit 19 in which other programs are stored, and various data such as content data in a database. The data section 20 that is used, the notation fluctuation control dictionary 24 that is used when controlling the use of impression expressions (adjectives, etc.), which will be described later, and the evaluation viewpoint (noun phrases strongly linked to the impression expressions) are controlled. It includes a thesaurus dictionary 25 for use in the process.
[0012]
The modem 17 is a part for the data search device 11 to communicate with the outside via a network such as the Internet.
The central controller 12 includes a CPU (Central Processing Unit) 13, a ROM (Read Only Memory) 14, and a RAM (Random Access Memory) 15.
The RAM 15 is a readable / writable memory that loads a program of the program unit 19 and provides a working memory to the CPU 13.
[0013]
The ROM 14 is a read-only memory that stores basic programs and parameters for operating the data search apparatus 11.
The CPU 13 performs various calculations and determinations according to a program stored in the ROM 14 or a program loaded in the RAM 15, and transmits / receives data to / from the input / output unit 16, the modem 17, the storage device 18 and the like via the bus line 21 , And control of these devices.
[0014]
Of the search request sentence generation system and the search result display system, first, the search request sentence generation system will be described.
FIG. 2 is a block diagram showing the configuration of the search request sentence generation system 37.
Among the constituent elements of the search request sentence generation system 37, the notation fluctuation control dictionary 24 and the thesaurus dictionary 25 are stored in the storage device 18 (FIG. 1), and the merge module 32, the control module 33, the noun phrase frequency module 34, The sort module 35 and the query tool display module 36 are modules implemented by software by loading the search request statement generation program stored in the program unit 19 into the RAM 15.
The input means 31 is, for example, a keyboard or mouse connected to the input / output unit 16, and the user can input search conditions and the like using the keyboard and mouse.
[0015]
Next, the function of the search request sentence generation system 37 will be described with reference to FIGS.
When the merge module 32 acquires the input data from the input means, it merges all the data in the content, and takes out a set of impression expressions and noun phrases that are strongly associated with the impression expressions. For example, when degree adverbs are associated with impression expressions such as “slightly broad” or “pretty sweet”, these degree adverbs are extracted together with the impression expressions and noun phrases.
When creating a query tree to be described later, it is not necessary to use an adverb to the extent that is associated with an impression expression word. deep.
Here, the impression expression word is a noun phrase or a single adjective or adjective verb, such as "wide" in "wide room" or "fruity" in "fruity wine" It is a phrase that expresses the impression and sensibility.
[0016]
FIG. 3 is a diagram for explaining the function of the merge module 32. First, merge data 41 is generated by merging all the data data1, data2,. Next, an impression expression word and a noun phrase strongly associated with the impression expression word are extracted from the merge data 41 as a set, and impression expression word noun phrase set data 42 is generated.
These noun phrases mean impression objects and are also called evaluation viewpoints.
In the example of FIG. 3, the impression expression word “wide” and the noun phrase “room” linked thereto are extracted as a set from “room is wide” in the merge data 41 and registered in the impression expression word noun phrase set data 42. Yes. Similarly, “in a quiet environment” to “quiet” / “environment” set, and “room is wide” to “room is” / “wide” set are taken out.
[0017]
Next, the control module 33 (FIG. 2) controls the impression expression word and the noun phrase extracted in the impression expression word noun phrase set data 42.
First, regarding the control of impression expressions (adjectives, adjective verbs, etc.), if these adjectives and adjective verbs are inflected forms, they are controlled to the final form. In addition, referring to the notation fluctuation dictionary 24, a standard that has been determined in advance, such as Kanji, Hiragana, or Katakana whose readings are the same and synonymous with any normalized expression (for example, hiragana, katakana notation is aligned with Kanji notation). Control).
Next, the control module 33 refers to the thesaurus dictionary 25 and performs notation control for the noun phrases in the impression expression noun phrase set data 42. When there is a broader word in a noun phrase, this notation control is aligned with the broader word, and if there is a synonym, it is regulated to a normalized expression.
[0018]
FIG. 4 is a diagram for explaining the function of the control module 33.
First, the control module 33 acquires the impression expression word noun phrase set data 42, and although not shown, for example, the impression expression words such as “wide” and “quiet” are terminated with “wide”, “quiet”, etc. To control.
Next, the control module 33 controls the impression notation fluctuation using the notation fluctuation dictionary 24. For example, “Hiroi” and “Hiroi” are “wide”, “Sweet” is “sweet”, “Smell”, “Kusai”, “Kusai” are “smell”, etc. Controlled by normalized expressions.
In this way, the notation fluctuation dictionary 24 has notations that need to be controlled and notations (normalized expressions) after they are controlled as a database.
[0019]
Next, the control module 33 uses the thesaurus dictionary 25 to, for example, “bathroom” as a synonym “bath”, “big bath” as a broader term “bath”, and “sento”. Is controlled to the broader word “bath”, and post-notation controlled data 43 is generated. In the post-notation controlled data 43, the set of impression expression words and noun phrases has the same notation such as “wide” / “room” and “wide” / “room”, for example.
The thesaurus dictionary 25 is a database that stores inferior words, corresponding broader words, synonyms that should be aligned, synonyms after being aligned, and the like.
[0020]
The noun phrase frequency module 34 (FIG. 2) obtains post-control data from the control module 33, sorts only the noun phrases in the data according to the frequency, and sorts the frequent ones with an evaluation viewpoint (impression expression words). It is adopted as an object of impression, for example, “house” of “large house”.
The noun phrase related to the impression expression word existing in the content is the subject of subjective expression such as “wide” or “thick” in the content, and the user selects the subject of the subjective expression. It can be said that this is the point of view that is desired as a search request.
[0021]
FIG. 5 is a diagram showing the sort data 45 generated by the sort module 35. The sort data 45 indicates the frequency of noun phrases extracted from the post-notation-controlled data 43 by the sort module 35. This frequency is calculated regardless of the impression expression word to which the noun phrase is linked.
From FIG. 5, the frequency of “room” is 25 (that is, the number of times “room” appears in the noun phrase in the post-notation control data 43), and “bath” is 13 or the like.
The sort module 35 generates the viewpoint data 46 together with the expression word from the frequency obtained from the sort data 45 with the noun phrase having the highest frequency as the viewpoint. In the sort data 45 of FIG. 5, “room”, “bath”, “lobby”, and “employee” having a frequency of 10 or more are selected as evaluation viewpoints and output from the sort module 35 as viewpoint data.
[0022]
FIG. 6 is a diagram showing the viewpoint data 46 generated by the sort module 45. In the viewpoint data 46, the noun phrase selected as the evaluation viewpoint and the impression expression word associated with the noun phrase are associated with the frequency.
The query tree display module 36 obtains the viewpoint data 46 from the sorting module 35, sets the evaluation viewpoint as a parent (node), and on the other hand, inputs / outputs 16 as a tree structure (query tree) having a set of impression expression words as children. Display on the display device connected to 1).
In addition, the user can use the query tree when searching. That is, when the user selects an impression expression word and a noun phrase from the query tree by a mouse operation or the like, the query tree display module 36 generates a search request sentence in which the selected impression expression word and noun phrase are set, and the data Send to search system.
[0023]
FIG. 7 shows an input screen 48 displayed on the display device. The input screen 48 is displayed by an image information search program or the like. The input screen 48 includes a feeling input field 49, a text input field 50, an objective information input field 51, a search button 52, and the like.
The query tree displayed in the feeling input field 49 is generated and displayed by the query tree module 36 of the search request statement generation program.
[0024]
As shown in FIG. 7, in the feeling input field 49, the evaluation viewpoint (noun phrase) is a node, and impression expressions connected to the evaluation viewpoint are visually displayed as a tree structure. That is, the noun phrase is hierarchically displayed with the noun phrase as the parent and the impression expression word linked thereto as the child. When multiple impression expressions are associated with the same noun phrase, these impression expressions are siblings.
In this way, by displaying a high-frequency noun phrase and impression expression word in a tree structure, for example, even a user who does not recall the impression expression word “fruity” that is usually used in wine is “wine The appropriate impression expression word can be easily obtained from the query tree, such as “-fruity”.
The query tree can be used as a clue when the user sets the evaluation viewpoint when the evaluation viewpoint of the user is ambiguous.
[0025]
Next, how to use the input screen 48 will be described.
When the user uses the feeling input field 49, the user selects and determines the evaluation viewpoint in the feeling input field 49 by clicking a node by operating the mouse. Then, impression expression words corresponding to the evaluation viewpoint are displayed in a tree structure.
In the feeling input field 49 of FIG. 7, impression expressions such as “wide”, “clean”, and the like are displayed in the tree as a result of the user clicking the evaluation viewpoint “room”, “bath”, “location”. It is displayed by the structure.
[0026]
For example, when the user clicks the evaluation viewpoint “room” and the impression expression word “wide” and then clicks the search button 52, image information having a set of “wide” / “room” in the image information attached document is searched. The
FIG. 8 shows a case where search information is input to the text input field 50. The text input field 50 is a text search request text input frame. A set of impression expression words and noun phrases is taken out from the sentence inputted from here, and if there is a degree adverb, it is also taken out as a set.
For example, although there is no evaluation point of “meal” in the feeling input field 49, when “delicious meal” or the like is entered in the sentence input field 50 in a natural sentence, “meal” − “delicious” in the feeling input field 49. You can get the same results as selecting this tree.
[0027]
In the text input field 50, a keyword can be searched by inputting a specific data name.
The data search apparatus 11 includes a keyword search system (not shown) and performs a search using this.
FIG. 9 shows a specific data name entered in the text input field 50.
For example, the user can input a specific name “Shinagawa Hotel” in the text input field 50.
FIG. 10 is a search result display screen, which is a result of a search performed by a keyword search system (not shown) displayed on a display device by a search result display system which will be described later.
[0028]
Here, the user knows that he / she was drawn by either or both of the elements “close to the station” or “new room”, selects the impression expression phrase that he / she needs and executes a search. be able to.
Further, by clicking an appropriate attribute in the objective information input field 51 (for example, “Aomori Prefecture”), objective information can be used in a restrictive manner, and the width of the result display can be adjusted.
The impression expression phrase is composed of three elements: a degree adverb, an impression expression word representing an impression assumed by the degree, and a noun phrase strongly associated with the impression expression word.
[0029]
Next, the search result display system will be described.
The functions of the search result display system 61 are as follows.
When displaying the text of the text attached to the image information, the degree adverb, impression expression word, noun phrase, etc. are highlighted with color coding etc. to differentiate from other parts of the text. When displaying a summary of image information, a sentence having many impression phrases is displayed in a predetermined number of lines, for example, one line.
Further, for the data of the second rank or lower, the difference information from the first rank is acquired and displayed.
[0030]
FIG. 11 is a block diagram showing the configuration of the search result display system 61.
The notation fluctuation control dictionary 24 and the thesaurus dictionary 25 are the same as those used in the search input section sentence generation system 37.
The search information is processed in order from the bottom to the top in FIG. First, information retrieved by an image information retrieval program or the like is input to the impression expression noun phrase adverb phrase set module 62.
In the following, description will be made assuming that search ranks of the first and second ranks are displayed as an example, but this may display more search results.
[0031]
The impression expression noun phrase adverb phrase set module 62 extracts the attached explanatory text of the image information of the first rank and the image information of the second rank. It is assumed that the search results acquired by the search result display system 61 from the data search device are ranked in advance.
Then, an impression expression word, a set of impression expression words, noun phrases, and degree adverbs are extracted from the attached explanatory text extracted in the same manner as the search request sentence generation system 37.
Next, the control module 63 controls the notation of the set of impression expression words and noun phrases using the thesaurus dictionary 25 and the notation fluctuation control dictionary 24. Note that the control module 63 of the search request sentence generation system 37 can also be used as the control module 63.
For impression expressions (adjectives, adjective verbs, etc.), if it is an inflection form, it will be a final form. Also, kanji, hiragana, and katakana, which have the same reading and are synonymous, are controlled to any normalized expression.
For noun phrases, control to broader terms, and if there are synonyms, control to normalized expressions.
[0032]
The difference extraction module 64 compares the set of noun phrases and the post-control impression expression words extracted from the two documents, and extracts only the different parts. This reveals the common and different aspects of both image information. Then, the difference extraction module 64 displays an impression expression phrase different from the first-order image information for the second-order or lower image information.
Note that the difference extraction module 64 compares the set of controlled impression expressions and noun phrases.
The emphasis module 65 differentiates from other words / phrases by color-coding the degree adverbs such as “youthful” and “spicy”, impression expression words, noun phrases, and the like.
[0033]
FIG. 12A is a diagram illustrating a state in which the search result display system 61 performs data processing using wine content as an example.
First, the impression expression word noun phrase adverb phrase set module 62 obtains document data 71 attached to the image information of the search result, and then extracts a set of impression expression words and noun phrases from each data to generate set data 72. To do.
For example, a set of “fresh” / “taste” is extracted from “fresh taste” of the document data 71. If there is an adverb such as “Very”, this is also taken out as a set.
[0034]
Next, the control module 63 controls impression expression words and noun phrases. For example, notation such as “refreshing” / “taste” is controlled by normalized expressions such as “refreshing” / “taste”. The control data 73 is obtained.
Next, the difference extraction module examines a set different from the common set (impression expression word and noun phrase) of the two data, and extracts the difference data 74.
Thus, for example, the first search result object (hereinafter referred to as wine 1) and the second search result object (hereinafter referred to as wine 2) are both “fresh” / “taste”. Compared to wine 2, it has “very”, “sweet” / “fragrance”, and wine 2 has “beautiful” / “label” and “elegant” / “fragrance” compared to wine 1. I understand that.
[0035]
Furthermore, it is possible to display the search result as shown in FIG. 12B using the difference information.
FIG. 12B shows the search result displayed on the display screen.
The difference between the wine “Cuvée Cruise Rouge” ranked first and the wine ranked second to fourth is shown for each wine.
As described above, when the difference information is extracted with respect to the result of the second place or less, the user can more clearly recognize the characteristics of each wine.
[0036]
FIG. 13 is a diagram showing an input screen 48 when searching for wine content as an example.
Here, when the user selects “taste” / “light” from the tree structure and selects “do not select” as the objective information, the search result screen 77 shown in FIG. 14 is displayed.
First, in the text display field 78, the adverb module 65 such as “youthful”, “spicy”, “fruity”, “light and fresh”, impression expressions, noun phrases, etc. are colored and displayed by the highlighting module 65 to be highlighted. ing.
In the summary display column 79, a portion having a lot of impression phrases is displayed for the number of lines designated in advance (here, two lines).
[0037]
In the first search result display column 80, a set of impression expression words, noun phrases and degree adverbs extracted from the image information attached document is displayed, and the characteristics of this wine are displayed in an easy-to-understand manner. In the second search result display column 81, the difference from the first wine is displayed.
[0038]
The three types of result display methods, emphasis of degree adverbs by color coding, impression expression words, summary display, and difference display, have been shown above. If the user selects an impression expression phrase from each of the second-ranked search result display fields 81 with a mouse click or the like, the search can be performed again using the impression expression phrase as a search request sentence.
As a result, even if the user makes a search once and sees actual data to clarify his / her request, the search can be executed again by selecting an impression expression phrase including the request.
For example, if “fresh” / “feel” matches the user's request more than “taste” / “light” input first, for example, the first search result display field 80 The user can search again by selecting “fresh taste” by clicking with the mouse.
[0039]
FIG. 15 is a flowchart for explaining the operations of the search statement generation system 37 and the search result display system 61.
First, the query generation system 37 displays a query tree with the evaluation viewpoint as a node in the feeling input field 49. Then, the user selects a search request sentence by selecting an evaluation viewpoint and an impression expression word (step 10).
Next, for example, a search is performed using an expression word and an evaluation viewpoint selected by a search system such as an image information search system (step 20).
[0040]
Next, the impression expression word noun phrase adverb phrase set module 62 of the search result display system 61 extracts document data attached to the searched image information and the like of the first and second ranks, and the impression expression word from the document data And a set of noun phrases and degree adverb phrases (step 30).
Next, the control module 63 controls the usage form of the impression expression word to the end form (step 40), and further controls the impression expression word (step 50) and the noun phrase (step 60).
Next, the difference extraction module 64 acquires the degree of duplication of the set of impression expression words, noun phrases, and degree adverb phrases (step 70), and compares the first and second rank data to extract differences ( Step 80).
Next, the search result is displayed on the display device (step 90).
Further, if re-search is necessary, after selecting the impression expression phrase necessary for re-search from the difference information (step 100), the search execution button 52 is selected (step 110).
[0041]
The following effects can be obtained from the search result display system 61 described above.
First, when presenting the search results, extract the sentence that contains more impression expression phrases from the accompanying explanatory text displayed as a result, and show the summary effect by showing the specified number of high-order sentences Can do.
In addition, each element of the impression expression phrase (degree adverb, impression expression word, noun phrase) in the attached explanatory text displayed as a result can be easily seen by highlighting or the like.
Further, in the attached explanatory text displayed as a result, the impression expression phrase of the first place and the impression expression phrase of the second place or less can be displayed with the impression expression phrase of the difference from the first place.
As for the re-search, the summary part displayed in the text display column 78, the summary column 79, the first search result display column 80, the second search result display column 81 of the search result screen 77, or the degree adverb, When any one of the impression expression word, the emphasized part of the noun phrase, or the difference is selected, the search can be performed again using this as a query.
[0042]
(Second Embodiment)
By the way, the present applicant has proposed a data search device of Japanese Patent Application No. 11-281201 (unpublished). In the second embodiment, the data search device is used as the data search system described in the first embodiment.
Japanese Patent Application No. 11-281201 is not configured to search for image information using a set of impression expression words and noun phrases, but can be searched using a set of impression expression words and noun phrases. Partially change the system.
First, the data search device of Japanese Patent Application No. 11-281201 will be described.
[0043]
The data retrieval apparatus includes a subjective evaluation information dictionary in which impression data for image information to be searched is placed in a coordinate space having a subjective similarity element as a coordinate axis, and a coordinate space having a subjective similarity element as a coordinate axis. A subjective evaluation expression dictionary in which impression data for an impression expression word serving as a search key is laid out, a search condition sentence acquisition means for acquiring a search condition sentence subjectively expressed in a natural language as a search condition, and the search condition A search impression that extracts an impression expression word from a search condition sentence acquired by a sentence acquisition unit and generates impression data for the acquired search condition sentence from impression data of the impression expression word stored in the subjective evaluation expression dictionary Image information of impression data most similar to the impression data generated by the data generation means and the search impression data generation means Find an image information retrieval unit which is provided with output means for outputting the image information retrieved by the image information retrieval unit, a (first configuration).
In the first configuration, impression data for each impression expression word stored in the subjective evaluation expression dictionary includes range data for designating a range for each coordinate axis (second configuration).
In the first configuration or the second configuration, a text data acquisition unit that acquires text data relating to new image information, an impression expression word is extracted from the text data acquired by the text data acquisition unit, and the subjective evaluation is performed. Impression data generating means for generating impression data for the new image information from the impression data of the impression expression word stored in the expression dictionary, and the impression data generated by the impression data generating means is used as the impression of the new image information. Image information adding means for registering it in the subjective assessment information dictionary as data (third configuration).
In addition, the first means, the second means, or the third means are registered in the subjective evaluation expression dictionary in the extraction means for extracting the text data impression expression words and the impression expression words extracted by the extraction means. Impression expression word impression data generating means for generating impression data for the unregistered impression expression word from impression data for the registered impression expression word when there is an impression expression word and an unregistered impression expression word, and the impression Impression expression word adding means for registering impression data generated by the expression word impression data generating means in the subjective evaluation expression dictionary as impression data of the unregistered impression expression words can be configured (first operation). 4 configuration).
Furthermore, the subjective evaluation information dictionary of any one of the first configuration to the fourth configuration includes an objective feature condition for each image information, and the image information search means includes the search condition When an objective feature condition is acquired from the acquisition means, the image information can be narrowed down using the objective feature condition as a constraint condition (fifth configuration).
Furthermore, the subjective evaluation information dictionary of any one of the first to fifth configurations includes objective feature conditions together with impression data for each image information, and provides objective new image information. Based on the feature condition, impression data for the new image information is generated from the relationship between the impression data of the image information stored in the subjective evaluation information dictionary and the objective feature information, and stored in the subjective information dictionary. A second image information adding unit can be provided (sixth configuration).
Further, the search condition acquisition unit of any one of the first configuration to the sixth configuration acquires the search condition from an external device connected to a network, and the output unit includes the output unit It can be configured to output image information to an external device connected to the network (seventh configuration).
Further, as a data search program related to the data search device, a function for creating a subjective evaluation information dictionary in which impression data for image information to be searched is placed in a coordinate space having a subjective similarity element as a coordinate axis; , A function that creates a subjective evaluation expression dictionary in which impression data for impression expression words serving as search keys is placed in a coordinate space with subjective similarity elements as coordinate axes, and is expressed subjectively in natural language as a search condition A search condition sentence acquisition function for acquiring the search condition sentence, and impression data of the impression expression word extracted from the search condition sentence acquired by the search condition sentence acquisition function and stored in the subjective evaluation expression dictionary A search impression data generation function for generating impression data for the acquired search condition sentence, and a mark generated by the search impression data generation means. An image information search function for searching image information of impression data most similar to data from the subjective evaluation information dictionary, and an output function for outputting image information searched by the image information search means are realized by a computer. There are a data search program and a recording medium on which the data search program is recorded.
[0044]
(1) Outline of data retrieval device
A subjective evaluation information dictionary 5 (see FIG. 21) in which impression data for image information to be searched is placed in a coordinate space having subjective similarity elements as coordinate axes. Further, a subjective evaluation expression dictionary 4 (see FIG. 18) in which impression data of impression expression words serving as search keys is placed in a coordinate space having a subjective similarity element as a coordinate axis. The impression data of the subjective evaluation expression dictionary 4 includes coordinate values for each seat axis and range data for designating a range on each coordinate axis around the coordinate value (see FIG. 19).
Then, as a search condition, an impression expression word is extracted by natural language processing from a search condition sentence subjectively expressed in natural language, and corresponding impression data is extracted from the subjective evaluation expression dictionary 4. When there are a plurality of impression expression words, one or a plurality of impression data integrated by the integration process is generated as search impression data. Then, in the coordinate space having the subjective similarity element as the coordinate axis, the image information having the impression data having the closest Euclidean distance to each search impression data is output as the search result.
On the other hand, when adding new image information, an impression expression word is extracted from text data such as an explanatory text added to the added image information, and integrated into one impression data by integration processing. The impression data consisting of the coordinate values obtained by removing the range data from the impression data is registered in the subjective evaluation information dictionary 5 as impression data of image information.
In addition, when an unregistered impression expression word is extracted in the subjective evaluation expression dictionary 4 in the process of image information search and image information addition, other impression expression words included in sentences and text data used in the process are extracted. One impression data is generated by integrating the impression data, and is registered in the subjective evaluation expression dictionary 4 as impression data of the impression expression word.
[0045]
(2) Details of data retrieval device
FIG. 16 conceptually shows the configuration of the data search apparatus.
As shown in the conceptual block diagram, the data search apparatus includes an input unit 1, a search condition sentence acquisition unit 2, a search impression data generation unit 3, a subjective evaluation expression dictionary 4, a subjective evaluation information dictionary 5, and an image information search unit 6. Output means 7, image information adding means 8, and impression expression word adding means 9.
The input means 1 is for inputting a search condition sentence in a natural language desired by the user, and a keyboard or a voice recognition device is used.
The search condition sentence acquisition unit 2 acquires a search condition sentence input from the input unit 1 or acquires a search condition sentence transmitted from a wired connection or a wirelessly connected external device using a communication unit. Examples of external devices include other personal computers connected via LAN, and external personal computers connected to the Internet via the World Wide Web (WWW). The search condition statement can be acquired.
The search impression data generation means extracts impression expression words and the like from the search condition sentences acquired by the search condition sentence acquisition means, extracts impression data corresponding to the extracted impression expression words from the subjective evaluation expression dictionary 4, and searches impressions. Generate data.
[0046]
The subjective evaluation expression dictionary 4 classifies, for example, impression expression words that are used when expressing impressions such as images and feelings about a desired beer in a natural language when searching for beer. This is a stored dictionary. The impression expression word here is not a physical feature of the image information to be searched but a word (sensitivity word) that expresses an intuitive impression with adjectives and adjective verbs such as “soft” and “clear”. is there.
Here, all the data formats that can express the relative relationship by subjective similarity can be handled as image information to be searched. For example, in addition to images such as videos and still images, music data, audio data, Text data itself such as publications, other signal data, and contents having these as elements are also included.
FIG. 17 conceptually shows the contents of the subjective evaluation expression dictionary 4.
As shown in FIG. 17, the subjective evaluation expression dictionary is classified into various categories for image information to be searched such as beer, wine, sake, movies, TV program information, travel information on the Web, online shopping, and the like. Has been. And impression expression words used to express the impression of image information belonging to each category, specifically, expression words represented by adjectives and adjective verbs and degree adverbs (adverbs indicating the degree of “somewhat”, “pretty”, etc.) In addition, nouns, proper nouns, and the like that are strongly associated with impression factors are collected in advance for each category and stored in the subjective evaluation expression dictionary.
[0047]
On the other hand, for each category, an element (subjective similarity element) representing subjective similarity is extracted with respect to image information belonging to the category. For example, when the category of the target image information is a movie, subjective similarity elements such as “thrill”, “feeling”, and “comedy” are extracted as the properties of the work. For the category “beer”, as shown in FIG. 17, subjective similarity elements such as “koku”, “crime”, “umami”, “nodomi”, and “exhilaration” are extracted.
Then, by specifying the strength of the subjective similarity element for each impression expression word, the impression data for each impression expression word (a multidimensional, which is placed in a coordinate space with the subjective similarity element as a coordinate axis) Coordinate values (vectors) have been determined, i.e., for collected impression expressions, each expression specifies the strength of a subjective similarity element, i.e. points to a specific range in the impression data space. Based on the hypothesis, the relative level value of each similarity element is given.
For example, as shown in FIG. 17, the impression expression word “with richness” for the category “beer” has a relative value of 3 for the subjective similarity element “rich” and a relative value for the subjective similarity element “Kire”. Impression data with values of 0, ... are given.
[0048]
FIG. 18 exemplifies a coordinate space having a subjective similarity element as a coordinate axis, and impression data for each impression expression word placed in the coordinate space. In FIG. 18, the coordinate space of beer is expressed using the three elements of subjective similarity elements of richness, sharpness, and umami as coordinate axes, and impression data for impression expressions “creamy”, “mellow”, and “dry” are placed. It is a thing.
As shown in FIG. 18, each impression expression word is expressed by impression data (vector) having a subjective similarity element extracted for image information belonging to the category as a coordinate axis and each coordinate value as an element. Is done.
[0049]
As illustrated in FIG. 17, the actual impression expression word includes range data indicating the range included in the impression expression word in addition to the coordinate value indicating the relative value of each subjective similarity element. Yes. Therefore, the impression expression word is specified in an impression data space surrounded by a range centered on the coordinate value of each subjective similarity element (a constant range centered on the coordinate value).
FIG. 19 shows an impression data space of impression expression words in two-dimensional coordinates. As illustrated in FIG. 19, for example, the impression expression word “creamy” of the category “beer” has a range of plus or minus 2 centered on the coordinate value 4 with respect to the subjective similarity element “koku”, That is, it is specified in the range of 2 to 6, and is specified in the range of plus or minus 2 around the coordinate value −2, that is, in the range of −4 to 0 with respect to the subjective similarity element “clear”.
Thus, the impression data of the impression expression word has a certain range with respect to each coordinate axis (subjective similarity element), so that it is not represented by a point on the coordinate space, but a certain space on the coordinate space. The image information included in the impression data space of the impression expression word can be listed as search candidate image information. By listing image information in the impression data space of impression expression words in this way, it is not necessary to determine the degree of similarity with impression data for all image information, and the similarity with impression data for the listed image information Judgment can be made, and the judgment can be speeded up.
[0050]
The subjective evaluation information dictionary 5 stores data related to search objects, and impression data and attached information for each image information are classified and stored for each category. The category in the subjective evaluation information dictionary 5 is the same as the category in the subjective evaluation expression dictionary 4, and the search is performed within the range of the same category.
FIG. 20 conceptually shows the contents of the subjective evaluation information dictionary 5.
As illustrated in FIG. 20, impression data for each image information is represented by a vector whose elements are values on the coordinate axis composed of common subjective similarity elements, similar to impression data for impression expression words. . That is, the impression data of the image information “Asahi Super Dry” is a vector (3, 4, 2, 3.5, 3. 5, ...).
Similarly, “Asahi Kurose” “Asahi First Lady” “Asahi Super Premium” “Asahi Draft Beer Dunk” (both are registered trademarks or trademarks of Asahi Breweries Co., Ltd.), “Kirin Lager Beer” "Beer""Kirin Ichiban Kuro draft beer""Kirin Beer Factory <Raw""" Kirin Blau Meister "(both are registered trademarks or trademarks of Soba Sake Co., Ltd.) It is expressed by
Note that each coordinate value of the impression data for the image information is not attached with range data unlike the impression expression word.
Therefore, image information is laid out in a multidimensional coordinate space with subjective similarity elements as coordinate axes, and by specifying an area (impression data space) having a certain width in the coordinate space, the impression data space It is possible to search (list up) image information placed inside.
On the other hand, as the attached information, objective feature conditions such as numerical data, target image data, text data such as explanatory text, and the like are stored for each image information. In the attached information, various data that cause impression of other image information are stored as related information in various forms.
[0051]
The objective feature condition stored in the subjective evaluation information dictionary 5 as the attached information means physical feature data of the image information, and is quantitative data that can be measured quantitatively. In addition, category information obtained by classifying image information according to its properties and uses also corresponds to objective feature conditions.
For example, when the image is image information, the color and shape are applicable, and when the passenger car is image information, the displacement, fuel consumption, weight, and the like are applicable.
The objective feature condition is used to narrow down image information as a constraint condition when searching for image information.
[0052]
Various types of data that can impress image information include personal names, product names, etc., which have a certain kind of strong impression, or impression data of primitive figures that are components of images To do. For example, when making a movie work image information, the impression of the leading actor may be more dominant than the impression of the work itself. In such a case, an impression expression word extracted from the commentary of the movie work, In some cases, the impression data given to the leading actor, etc. is quoted rather than the impression data estimated from the scene image, and the impression data of the work is more reflective of subjective similarity. The name of the leading actor is stored as attached information.
[0053]
As shown in FIGS. 17 and 20, the subjective evaluation expression dictionary 4 and the subjective evaluation information dictionary store category classification information such as nouns included in each category. For example, “beer” is stored as category classification information for determining the category “beer”, and “wine” is stored as category classification information for the category “wine”. In addition to storing each category's noun itself as categorization information, for example, for the category “wine”, related words such as “Bordeaux” and “Beaujolais Nouveau”, “(grape + grape + grape) × brewing” And the like are also stored as category classification words. Related words and conditional expressions are also stored as category classification information for other categories.
In this manner, by storing the category classification information in the subjective evaluation expression dictionary 4, nouns that match (or satisfy the conditional expression) are included in the text data in the search process, the image information addition process, and the impression expression word addition process. If included, it can be automatically classified into the corresponding category.
[0054]
The image information search means 6 (FIG. 16) uses the search impression data (a set of level values of subjective similarity elements) generated by the search impression data generation means and an objective feature condition as a search key. Search various image information stored in.
That is, the image information registered in the subjective evaluation information dictionary 5 is narrowed down by using objective feature conditions as constraints, and image information within the range indicated by the level value set is extracted from the image information. The similarity of impression data is judged and output as search results in the order of image information with higher similarity.
[0055]
The output unit 7 outputs the search result searched by the image information search unit 6. The output of the search result by the output means 7 is performed by outputting the searched image information to the display device and printing it out to the printing device.
[0056]
The image information adding means 8 generates impression data for the new image information and stores it in the subjective evaluation information dictionary 5 together with the attached information. Impression data of new image information is generated by extracting impression expression words stored in the subjective evaluation expression dictionary 4 from text data attached to the image information and using the impression data of the impression expression words. Also. The impression data of the registered image information is generated from the objective characteristic condition of the image information registered in the subjective evaluation information dictionary 5 and the objective characteristic condition for the new image information.
In this way, the image information adding means 8 can newly add image information from text data or objective characteristic conditions, so that the subjective evaluation information dictionary can be easily enriched.
[0057]
The impression expression word adding means 9 generates impression data for an unregistered impression expression word and additionally registers it in the subjective evaluation expression dictionary 4. A new impression expression word is added by the impression expression word adding means 9 in a text in a natural language inputted when searching for image information, or an impression expression word not registered in the image information adding means 8 is a text corresponding to the image information. This is done when there is an unregistered impression expression word in the data.
Thus, since the new impression expression word is automatically registered in the subjective evaluation expression dictionary 4 by the impression expression word adding means 9, the more the data retrieval device is used, the more the subjective expression expression dictionary 4 becomes. Become. In particular, the user's feelings and sensitivities to the image information, as well as the texts that express them, are diverse. By collecting and adding new impression expressions in the search process, it is possible to increase the sensitivity and expression of more users. The corresponding subjective evaluation expression dictionary 4 can be obtained.
[0058]
By the way, the subjective evaluation expression dictionary 4 and the subjective evaluation information dictionary 5 of the data search device of Japanese Patent Application No. 11-281201 (unpublished) related to the present applicant described above store impression expression words and noun phrases as a set. As a result, there was a problem that the evaluation viewpoint was not determined. That is, for example, when a user creates a search sentence such as “wide room” and searches for it, information such as “wide entrance” and “wide bathroom” is also hit because the evaluation viewpoint is not determined.
Therefore, in the second embodiment, subjective similar elements are generated using a set of impression expression words and noun phrases.
[0059]
The subjective evaluation expression dictionary 4 (hereinafter simply referred to as the expression dictionary 4) of the data search apparatus (hereinafter referred to as the previous data search apparatus) of Japanese Patent Application No. 11-281201 is, for example, savory and crisp with respect to beer. Although impression data is set for a rich, creamy, impression expression word, the expression dictionary 4 of the second embodiment has, for example, an impression expression word “wide” as shown in FIG. ”Includes a set of impression expression words and noun phrases such as“ large room ”and“ wide bathroom ”. That is, the subjective similarity element is composed of a set of impression expression words and noun phrases. A set of impression expression words and noun phrases such as “wide bathroom” is a subjective feature element, but takes a value of 5 ± 3. This corresponds to the expression dictionary 4 of the previous data retrieval apparatus in which the characteristic feature element has a range of “3 ± 2” as “rich”.
[0060]
On the other hand, the subjective evaluation information dictionary (hereinafter simply referred to as the information dictionary 5) in the previous data retrieval apparatus has subjective similarity elements created for each image information, for example, “full”, “clear”, “umami” Impression data is created for impression expression words such as "". On the other hand, as shown in FIG. 24, the information dictionary 5 according to the second embodiment is a set of impression expression words and noun phrases such that the subjective similarity element is “bathroom is wide” or “room is wide”. Impression data has been created.
As described above, in the second embodiment, the vector space can be configured by subjective similarity elements having evaluation viewpoints such as “room is wide” and “bathroom is wide”.
In other words, in the information dictionary 5 using the example of FIG. 18, a space is created by subjective similarity elements such as “mellow”, “rich”, and “dry”. In the second embodiment, Furthermore, the evaluation viewpoint is further clarified, and a space is created by a set of impression expression words and noun phrases such as “mellow smell”, “mellow taste”, “rich taste”, and so on.
[0061]
As described above, in the previous data retrieval apparatus, the subjective similarity element was determined without simply setting the evaluation viewpoint such as “wide”. However, in the second embodiment, the evaluation viewpoint is further clarified. Since the subjective similarity element is composed of impression expression words and noun phrases such as “bathroom is large” and “room is large”, the accuracy of search can be improved.
That is, when the user creates a search request sentence with “a hotel in a large room”, the image information having a value of 5 ± 3 (integrated value) in the component of the subjective similarity element “room is wide” is hit. However, this is not the case, and the image information in which the component “wide bathroom” is 5 ± 3 does not hit.
[0062]
As described above, in the second embodiment, the subjective similarity element of the previous data retrieval apparatus is composed of impression expression words, and is a set of impression expression words and noun phrases. . Other search principles are the same as the previous data search apparatus.
[0063]
FIG. 22 is a diagram showing a state where the search request sentence generation system 37 (FIG. 2) and the search result display system 61 (FIG. 11) described in the first embodiment are incorporated in the previous data search apparatus. . Note that the previous data search apparatus can handle subjective similarity elements by a set of impression expression words and noun phrases.
The search request sentence generation system 37 generates a search sentence from the information acquired from the input unit 1 and outputs it to the search condition sentence acquisition unit 2. In this search sentence, an impression expression word and a noun phrase are set, and if there is a degree adverb, this is also taken out as a set.
On the other hand, the search result display system 61 receives the search result from the image information search means 6 and outputs it to the output means 7.
[0064]
In the second embodiment, the search request sentence generation system 37 and the search result display system 61 can be used for the data search device, and data search using impression expression words can be performed while setting the evaluation viewpoint.
[0065]
(Third embodiment)
In the second embodiment, subjective similarity elements (coordinate axes) are defined using a set of impression expression words and noun phrases (modified noun phrases) strongly associated with the impression expression words, and image search is thereby performed. However, this system had the following unresolved issues.
[0066]
(1) The impression expression word in the search request sentence has no modified noun phrase.
For example, when an image search is performed on hotel content, if a user inputs a query only as “wide”, the data search system according to the second embodiment assumes that there is no evaluation viewpoint, and the expression “wide room”. Even if there is ancillary data (data in the content) of the image information describing (the viewpoint of “room” is specified), it does not hit.
However, in hotel content, “wide” often expresses “room”, and from the search request sentence “wide”, the attached data with the description “room is wide” is also searched. Should.
[0067]
For example, if “wide” is simply entered as a search request sentence, a search key “wide” is generated, and accessory data describing expressions such as “very wide” and “anyway wide!” Are searched. However, attached data that is described as “very large room” or “single room is large!” Is not searched.
In addition, if “wide” is entered as a search request, even if the evaluation viewpoint “room” is automatically added, such as “room is large”, for example, content related to hotel contents or transportation charges, etc. It is necessary to set an evaluation viewpoint (noun phrase) for each content. Entrusting this to the user is a burden on the user, and a certain amount of prior knowledge is required for setting, so there may be a user who feels difficult.
[0068]
(2) The impression expression word in the attached data does not have a noun phrase strongly associated with it.
For example, if the search request sentence is “room is wide”, “room” is acquired as the evaluation viewpoint, and only “wide” is described in the attached data, and data without the evaluation viewpoint is not searched.
For example, if you enter “Search for a hotel with a large room” as a search request statement, the search key “Room is large” is generated, and “This hotel has a large room” or “Wide room” is described. Attached data is searched. However, the attached data described as “Very wide” or “Anyway here is wide” is not searched. For this reason, when setting the subjective similarity element (coordinate axis) of each attached data, the information that the description “wide” may be handled in the same way as “the room is wide” is required.
However, this is difficult to set in advance because the evaluation viewpoint changes depending on the content.
[0069]
(3) In the case where an adverse effect occurs by dividing the viewpoint in the search request sentence and the attached data.
For example, in a hotel content, “cheap price” and “cheap room” are often synonymous. However, since it is considered that “price” and “room” are not associated with each other in the existing thesaurus, in many cases “cheap price” and “cheap room” are interpreted as different meanings.
For example, if you enter "I want to find a cheap hotel" as a search request, the search key "Cheap price" will be generated, such as "This hotel is cheap" or "I can stay for a low fee" Attached data described as follows is retrieved. However, attached data such as “this hotel's room is cheap” or “anyway here is cheap!” Is not searched.
[0070]
Furthermore, this problem has different aspects depending on the content.
For example, in hotel content, “cheap” refers to “room charges”, but in content related to transportation charges, distinguish between “buses” or “trains” (evaluation perspectives). Is important.
It is a considerable burden on the user to leave the evaluation point to the user for each expression word.
For this reason, it is necessary to determine whether or not it is necessary to divide the evaluation viewpoints both when dealing with a search request sentence and when setting a subjective similarity element (coordinate axis).
This determination is made when there is no modified noun phrase in the impression expression word in the search request sentence of (1) above, and the impression expression word in the attached data of (2) has a noun phrase strongly associated with this. If not, it is necessary as well.
[0071]
Therefore, in this embodiment, the following four points are targeted.
(1) The evaluation viewpoint is automatically determined when there is no noun phrase strongly associated with the impression expression word in the search request sentence.
(2) When there is no noun phrase strongly associated with the impression expression word in the attached data, the evaluation viewpoint is automatically determined when the subjective similarity element (coordinate axis) is set.
(3) Automatically distinguishing search request sentences that do not require evaluation viewpoints.
(4) Automatically determine data that does not require separate evaluation viewpoints in the attached data.
[0072]
Hereinafter, the present embodiment will be described.
First, in order to achieve the objectives (1) and (2), in the present embodiment, an impression expression word having no strongly connected noun phrase is used by using a flag setting table 111 (FIG. 33) described later. Automatically set the evaluation viewpoint.
First, the flag setting system 100 that generates the flag setting table 111 will be described. The flag setting system 100 can be implemented in software by the CPU 13 executing a flag setting program stored in the program unit 19 (FIG. 1).
[0073]
FIG. 26 is a diagram illustrating an example of the configuration of the flag setting system 100.
The flag setting system 100 includes a merge module 90, an impression expression / noun phrase set extraction module 91, a control module A 92, an evaluation viewpoint selection module 93, a control module B, a noun phrase pickup module 95, a calculation module 96, and a most frequent noun phrase module. 97, a flag setting module 98, and the like.
[0074]
The merge module 90 merges all the attached data (all data in the content) to generate merge data.
[0075]
The impression expression word / noun phrase set extraction module 91 extracts an impression expression word and a noun phrase strongly associated with it from the generated merge data.
FIG. 27 is a diagram illustrating an example of a set of merge data, extracted impression expression words, and noun phrases.
The figure shows, as an example, impression expressions such as “Wide / Room”, “Quiet / Environment”, etc., from merged data obtained by merging Data 1, Data 2,. And an extracted set of noun phrases.
In this embodiment, it is assumed that processing is performed for each content such as hotel content, wine content,.
[0076]
The control module A92 performs notation control on the impression expression word extracted by the impression expression word / noun phrase set extraction module 91. For example, if the impression expression word is an adjective or an adjective verb inflection form, the notation control is used as an end form. A certain kanji, hiragana, or katakana is controlled to a normalized expression.
[0077]
The evaluation viewpoint selection module 93 focuses only on the noun phrase in the set of impression expression words and noun phrases extracted by the impression expression word / noun phrase set extraction module 91, and extracts the appearance frequency for each noun phrase. Then, a noun phrase whose appearance frequency is equal to or higher than a preset threshold value is selected as an evaluation viewpoint when the impression expression word is not accompanied by the modified noun phrase.
That is, if there is no noun phrase strongly associated with the impression expression word, any of the noun phrases selected here is added.
[0078]
FIG. 28 shows an example in which the noun phrases included in the impression expression word / noun phrase set extracted by the impression expression word / noun phrase set extraction module 91 are sorted in the order of appearance frequency.
As shown in the figure, the appearance frequency of the modified noun phrase “room” included in the set of impression expression words and noun phrases is 50, and is ranked at the top. Subsequently, the appearance frequency of “hotel” is 43, the appearance frequency of “feel” is 15,.
And in this Embodiment, the threshold value of appearance frequency was set to 8, and the noun phrase of appearance frequency more than this was selected as an evaluation viewpoint.
[0079]
The control module B94 refers to the thesaurus dictionary, controls the viewpoint determined by the evaluation viewpoint selection module 93 as the highest level, and controls the broader terms within that range. In addition, if there is a synonym dictionary, the thesaurus dictionary is regulated to normalized notation.
Noun phrases controlled by broader terms and normalized notation form a noun group. For example, “bath”, “sento” and “bathroom” controlled by “bath” form a “bath” group.
[0080]
FIG. 29 is a diagram for explaining control of a set of impression expression words and noun phrases.
The extracted impression expression word and noun phrase set 101 includes notations such as “wide / room”, “quiet / room”, or “large public bath” (not shown), and includes notations and subordinate words.
First, the notation shaking control dictionary 102 controls notation shaking such as “Hiroi” → “wide”, “sweet” → “sweet”, “crispy” → “odor”.
[0081]
Next, the thesaurus dictionary 103 controls lower words such as “large bath” and “sento” as broader words such as “bath”, and has a synonym such as “bathroom”. For example, by controlling to “bath”, control to normalized notation is performed to obtain a set 104 of impression expression words and noun phrases after control.
[0082]
The noun phrase pickup module 95 picks up the noun phrase related to the impression expression word existing in the content for each impression expression word, and rearranges the noun phrases in descending order of frequency. At this time, the appearance frequency of impression expression words not strongly associated with the noun phrase is also counted.
[0083]
FIG. 30 is a diagram showing an example of picking up noun phrases related to the impression expression word and rearranging them in descending frequency order for each impression expression word.
For example, the impression expression word “wide” has the highest appearance frequency of 52 although there is no noun phrase to which the impression expression word strongly relates. “Room” is 49, “Bath” is 19, and so on.
[0084]
The calculation module 96 calculates the following expression for each impression expression word and each modified noun phrase.
[Frequency of modified noun phrase N attached to impression expression T] / ([Frequency of impression expression T] − [Frequency when there is no modified noun phrase]) (1)
A noun phrase having a larger calculated value of Expression (1) has a higher frequency of being associated with the impression expression word.
[0085]
FIG. 31 is a diagram illustrating an example of the calculation result of the expression (1) for each impression expression word.
The calculation result of the noun phrase expression (1) relating to each impression expression word is shown.
For example, in the case of the impression expression word “wide”, the calculation result of the modified noun “room” is 0.333, which is the largest value, followed by “bath” 0.129, “furniture” 0.034,.・ Etc.
From these tables, for example, the noun “room” is frequently associated with the impression expression word “wide”, and the noun “transport” is frequently associated with the impression expression word “convenient”.
[0086]
The most frequent noun phrase module 97 extracts only the most frequently occurring noun from the calculation result of the calculation module 96 for each impression expression word.
Next, a predetermined threshold is set for the calculated value, and an impression expression word having a calculated value equal to or greater than the threshold is specified.
If there are no nouns that are strongly associated with impression expressions in the search request section, or if there are no nouns that are strongly associated with impression expressions in the attached data, and the calculated value for these impression expressions is greater than the previous threshold. Is larger, the most frequently used noun phrase obtained by the calculation module 96 is assigned as a noun phrase (evaluation viewpoint) strongly associated with the impression expression word.
[0087]
A table 110 in FIG. 32 shows the most frequently used nouns arranged in descending order of numerical values of the calculation results for each impression expression word.
As shown in the figure, the largest numerical value of the calculation result is the modified noun “room” associated with the impression expression word “beautiful”, and the numerical value of the calculation result is 0.458. “Price” that leads to “cheap”, “room” that leads to “clean”, and so on. In this embodiment, as an example, 0.100 is set as the threshold value of the calculation result.
For example, if the impression expression word “beautiful” appears in the search request without accompanying the modified noun phrase or appears in the attached data, the modified noun that is set as “clean” in FIG. "Room" will be linked as an evaluation viewpoint.
[0088]
The flag setting module 98 determines that, for each coordinate axis of the subjective similarity element (coordinate axis), an impression expression word having a value on the coordinate axis has a modified noun phrase belonging to each noun phrase group set in step 5. A flag is used to determine whether the value of the coordinate axis is valid, or if there is no noun phrase that is strongly connected, whether the value of the coordinate axis is valid.
For “no noun”, a flag is set corresponding to the case where the calculation result is equal to or greater than the threshold set in the table of FIG.
[0089]
FIG. 33 is a diagram showing an example of the flag setting table 111 indicating whether or not the value of each coordinate axis is valid. However, only some of the various coordinate axes are shown.
In the table, T indicates that the flag is set to enable the coordinate axis, and F indicates that the coordinate axis is disabled without setting the flag.
[0090]
For example, if a set of impression expression words and noun phrases is acquired and the noun phrase belongs to a room group, the “room size” coordinate axis and the “cleanliness” coordinate axis are enabled and the other coordinate axes are disabled. To do.
If the noun phrase belongs to the bath group, the “bath openness” coordinate axis is enabled and the other coordinate axes are disabled.
[0091]
When an impression expression word that does not have a strongly connected noun phrase is acquired, the flag of the coordinate axis specified by the impression expression word or the coordinate axis specified by the impression expression word and the noun phrase having a calculated value equal to or greater than the threshold in Table 101 Stand up.
For example, the flag setting table 111 includes a “room size” coordinate axis, a “bath size” coordinate axis, a “low” coordinate axis, a “convenience” coordinate axis, and a “cleanliness” coordinate axis. Among these, the “room size” coordinate axis is flagged because the impression expression word and noun phrase set “wide / room” is greater than or equal to the threshold in Table 110.
Further, the “cheap” coordinate axis and the “cleanliness” coordinate axis are flagged because the impression expression words “cheap” and “clean” are equal to or greater than the threshold in Table 110.
[0092]
The flags in the flag setting table 111 function as follows.
(1) A flag function for automatically setting an evaluation viewpoint in a search request statement.
If an impression expression word “wide” that does not have a strongly connected noun phrase (evaluation viewpoint) is input as a query, a flag is set for the “room size” coordinate axis in the flag setting table 111. On the other hand, the “bath width” coordinate axis is invalid because the flag is not set. Therefore, the evaluation viewpoint “room” can be automatically set for the search request.
This makes it possible to automatically determine that the query “wide” represents searching for a value having the “room size” coordinate axis.
[0093]
(2) A flag function when setting the subjective similarity element (coordinate axis) of the attached data.
For example, when an impression expression word “wide” that does not have a noun phrase that is strongly connected appears in the attached data, this attached data is assigned a value to the “room is wide” coordinate axis flagged in the flag setting table 111. Can have, but cannot have a value on a "bath wide" coordinate axis that is not flagged.
[0094]
In this way, the flag setting table 111 can be regarded as a database storing a set of preset impression expression words and noun phrases. That is, when there is an impression expression word that does not have a noun phrase to be linked to in the query or the text data included in the attached data, an appropriate noun phrase (evaluation viewpoint) is added to the impression expression word by the flag setting table 111. Can do.
[0095]
Next, in order to achieve the objectives (3) and (4), it is necessary to divide evaluation viewpoints for impression expression words having no strongly connected noun phrases using a flag setting table (FIG. 35) described later. Determine presence or absence.
Each table shown in FIG. 30 is acquired using the merge module 90 to the noun phrase pickup module 95 described above.
Next, for each impression expression word, a value of (frequency with no modified noun phrase) / (appearance frequency of the impression expression word) is calculated. The larger the calculated value, the higher the frequency that the impression expression word is used alone without a strongly associated noun phrase.
[0096]
The fact that the impression expression word is frequently used alone means that the meaning of only the word can be expressed, and it is considered that there is no need to separate the evaluation viewpoints.
In other words, nominal phrases in a set of impression expression words and noun phrases belong to any noun group, all the coordinate axes related to the impression expression words should have values, or there is no noun that is not strongly connected. In the case of an expression word as well, all coordinate axes related to the impression expression word may have values.
[0097]
FIG. 34 shows a table 120 in which the value of (frequency without modified noun phrase) / (appearance frequency of the impression expression word) is calculated for each impression expression word, and these impression expression words are arranged in descending order of the calculation result. It is shown.
As shown in Table 120, impression expressions such as “clean”, “convenient”, and “cheap” are frequently used alone.
In the present embodiment, 0.4 is set as a threshold value, and an impression expression word having a larger calculation result value than this value is not divided into evaluation viewpoints.
[0098]
FIG. 35 is a diagram showing a flag setting table 121 that indicates whether or not the value of each coordinate axis is valid. However, only some of the various coordinate axes are shown.
In the table, T indicates that the flag is set to enable the coordinate axis, and F indicates that the coordinate axis is disabled without setting the flag.
[0099]
From Table 120, the calculation results of impression expression words “clean”, “convenient”, and “cheap” are larger than the threshold value. For these impression expression words, it is necessary to select a coordinate axis (setting an evaluation viewpoint) using a noun group. For these impression expressions, flags are set for all noun groups and nouns.
Regarding the “room width” coordinate axis and the “bath width” coordinate axis, since the impression expression word “width” in the table 120 is smaller than the threshold value, it is necessary to select the coordinate axes based on the evaluation viewpoint. Therefore, a flag is set for the noun phrase of the room group for the “room size” coordinate axis, and a flag is set for the noun phrase of the bath group for the “bath width” coordinate axis.
[0100]
The flags set by the flag setting table 121 function as follows.
(1) A flag function for automatically setting an evaluation viewpoint in a search request statement.
For example, when a query containing the impression expression word “cheap” is entered in the search request sentence, it is a value in the “cheap” coordinate axis, regardless of what noun phrase it is strongly associated with, or even if there is no strongly associated noun phrase It is possible to automatically determine that a search is made for items having.
(2) Role of flag function when setting subjective similarity elements (coordinate axes) of attached data
Similarly, the "cheap" coordinate axis has a value on the "cheap" coordinate axis, regardless of what noun phrase the word "cheap" is strongly associated with, or no noun phrase is strongly associated It becomes possible.
[0101]
Thus, the flag setting table 121 can be viewed as a database storing a set of preset impression expression words and noun phrases. That is, when there is an impression expression word that does not have a noun phrase to be linked to in the query or the text data included in the attached data, an appropriate noun phrase (evaluation viewpoint) is added to the impression expression word by the flag setting table 111. Can do. Further, according to the flag setting table, it is possible to determine whether or not to associate a noun phrase with an impression expression word. For example, it can be determined that a noun phrase is associated with “width” and a noun phrase is not associated with “cheap”.
[0102]
Both of the flag setting tables 111 and 121 described above can be used as follows in the data search apparatus (FIG. 16) of the second embodiment.
When an impression expression word that is not associated with a noun phrase is included in the search request sentence in the natural language input by the user to the input means 1, the flag setting tables 111 and 121 are referred to and a predetermined noun phrase is added to the impression expression word. The impression expression word and the noun phrase set can be generated. A search request sentence can be generated from the set of impression expression words and noun phrases, and image data can be searched.
In the second embodiment, when there is an impression expression word that is not associated with a noun phrase in the search request sentence, the evaluation viewpoint (noun phrase associated with the impression expression word) is not determined, and it is difficult to perform a search. However, in the present embodiment, it is possible to automatically supplement the evaluation viewpoint using the flag setting tables 111 and 121 and perform a search.
In particular, when the flag setting table 121 is used, when an impression expression word that is not associated with a noun phrase is included in the search request sentence, it is determined whether to associate the noun phrase with the impression expression word and set an evaluation viewpoint. Can do.
Furthermore, in this embodiment, by controlling the noun phrase linked to the impression expression word in the attached data to the optimum thesaurus (evaluation viewpoint automatically set in the search request sentence) for each content, more appropriate search can be performed. Can be done.
[0103]
The image information search means 6 can determine which coordinate axis is valid using the flag setting tables 111 and 121.
For example, it is assumed that there is attached data having a “width” coordinate axis in the subjective evaluation information dictionary 5 (FIG. 16) storing hotel content. When a search request sentence generated using the impression expression word and noun phrase set “room size” is input, the image information search means 6 makes this coordinate axis effective by enabling the “width” coordinate axis. You can also search for attached data that has a value in. This is equivalent to giving the evaluation viewpoint by adding the noun phrase “room” to the “width” coordinate axis.
In the second embodiment, when there is an impression expression word that is not linked to a noun phrase in the attached data, it is difficult to search the attached data by a search request sentence in which an evaluation viewpoint is determined. In this embodiment, the flag setting tables 111 and 121 can be used to automatically supplement the evaluation viewpoint with an impression expression word that is not accompanied by a noun phrase in the attached data and perform a search.
In particular, when the flag setting table 121 is used, it is possible to determine whether or not to add a noun phrase to the coordinate axis for each impression expression word.
Furthermore, in this embodiment, the evaluation viewpoint automatically set to the noun phrase associated with the impression expression word in the search request sentence and the impression expression word not associated with the noun phrase in the attached data is controlled to the optimum thesaurus for each content. This makes it possible to perform a more appropriate search.
[0104]
Note that the use of the flag setting tables 111 and 121 is not limited to the data search apparatus of the second embodiment, and can be widely used for data search.
That is, a set of impression expression words and noun phrases is generated by adding a predetermined noun phrase to an impression expression word that is not linked to a noun phrase in the search request sentence using the flag setting tables 111 and 121, and using this When there is an impression expression word that is not connected to the noun phrase in the content to be searched or is searched, the flag setting tables 111 and 121 are used to connect an appropriate noun phrase to the impression expression word, You can search for it.
[0105]
As described above, in the third embodiment, all the modified noun phrases (noun phrases strongly associated with some impression expression word) in the corresponding content are acquired and the frequency information is acquired. And the to-be-modified noun phrase more than the preset threshold value is set as the viewpoint. Thereby, it is possible to realize a function of automatically setting a necessary viewpoint in the corresponding content.
In addition, the thesaurus is controlled based on the viewpoint determined by the above method when controlling the noun phrases by the thesaurus. That is, the standard is the highest hierarchy, and if there are noun phrases that are lower than those standards, the standard noun is controlled. This makes it possible to perform optimal thesaurus control for each content.
Furthermore, in order to appropriately and automatically determine impression expression words that have no noun phrases and impression expression words that do not need to have different viewpoints, the frequency of noun phrases that are strongly associated with an impression expression word is extracted.
And in order to implement | achieve the process when there is no noun phrase and when it is not necessary to divide a viewpoint, the flag which can set a several viewpoint instead of setting only one viewpoint to one coordinate axis was set.
[0106]
【The invention's effect】
According to the present invention, it is possible to provide a search result presentation device, a search result presentation method, a search result presentation program, and the like that can clarify a match between a search request and a result.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a data search device according to a first embodiment.
FIG. 2 is a block diagram showing a search request sentence generation system.
FIG. 3 is a diagram for explaining functions of a merge module;
FIG. 4 is a diagram for explaining functions of a control module;
FIG. 5 is a diagram showing sort data generated by a sort module.
FIG. 6 is a diagram showing viewpoint data generated by a sort module.
FIG. 7 is a diagram showing a search screen displayed on the display device.
FIG. 8 shows a case where search information is input in a text input field.
FIG. 9 shows a specific data name entered in the text input field.
FIG. 10 is a diagram showing a search result display screen.
FIG. 11 is a block diagram showing a configuration of a search result display system.
FIG. 12 is a diagram showing how the search result display system processes data.
FIG. 13 is a diagram showing a search input screen when searching for wine content as an example.
FIG. 14 shows a search result screen.
FIG. 15 is a flowchart for explaining operations of a search statement generation system and a search result display system.
FIG. 16 is a block diagram showing a configuration of a data search device that is a source of incorporating a subjective feature element generation system.
FIG. 17 conceptually shows the contents of a subjective evaluation expression dictionary in the data search apparatus.
FIG. 18 is an explanatory diagram exemplifying between a coordinate space having a subjective similarity element as a coordinate axis and a conceptual state in which impression data for each impression expression word is placed in the coordinate space in the data search apparatus;
FIG. 19 is an explanatory diagram showing an impression data space of impression expression words in the data search device as two-dimensional coordinates.
FIG. 20 conceptually shows the contents of a subjective evaluation information dictionary in the data search apparatus.
FIG. 21 is an explanatory diagram illustrating a coordinate space having subjective similarity elements as coordinate axes and a conceptual state in which impression data for each piece of image information is placed in the coordinate space in the data search apparatus.
FIG. 22 is a block diagram showing a state in which a search request statement generation system and a search result display system are incorporated in the data search device.
FIG. 23 is a diagram showing an example of extension of the subjective evaluation expression dictionary.
FIG. 24 is a diagram showing an example of extension of the subjective evaluation information dictionary.
FIG. 25 is a diagram showing a search example in a conventional search device.
FIG. 26 is a diagram showing an example of the configuration of a flag setting system.
FIG. 27 is a diagram showing a set of merge data, extracted impression expression words, and noun phrases.
FIG. 28 shows an example of noun phrases included in a set of impression expression words and noun phrases sorted in order of appearance frequency.
FIG. 29 is a diagram for explaining control of a set of impression expression words and noun phrases.
FIG. 30 is a diagram showing an example of picking up noun phrases related to the impression expression word and rearranging them in descending order of frequency for each impression expression word.
FIG. 31 is a diagram illustrating an example of a calculation result of Expression (1) for each impression expression word.
FIG. 32 shows the most frequently used nouns arranged in descending order of numerical values of calculation results for each impression expression word.
FIG. 33 is a diagram showing a flag setting table showing whether or not the value of each axis is valid.
FIG. 34 shows a table in which the value of (frequency with no modified noun phrase) / (appearance frequency of the impression expression word) is calculated for each impression expression word, and these impression expression words are arranged in descending order of the calculation results. It is a thing.
FIG. 35 is a diagram showing a flag setting table indicating whether or not the value of each coordinate axis is valid.
[Explanation of symbols]
1 Input means
2 Search condition sentence acquisition means
3 Search impression data generation means
4 Subjective evaluation expression dictionary
5 Subjective information dictionary
6 Image information retrieval means
7 Output means
8 Image information addition means
9. Impression expression addition method
11 Data retrieval device
12 Central processing unit
13 CPU
14 ROM
15 RAM
16 Input / output section
17 Modem
18 Storage device
19 Program Department
20 Data part
21 Bus line
24 Notation shaking control dictionary
25 Thesaurus
31 Input means
32 Merge Module
33 Control module
34 Noun phrase frequency module
35 Sort module
36 Query tree display module
37 Search request sentence generation system
41 Merge data
42 Impression expression noun phrase set data
43 Post-regulation data
45 Sort data
46 Viewpoint data
48 Input screen
49 Feeling input field
50 Text entry field
51 Objective information entry field
52 Search button
61 Search result display system
62 Impression expression noun phrase adverb phrase set module
63 Control module
64 Difference extraction module
65 Emphasis module
71 Text data
72 set data
73 Control data
74 Difference data
77 Search result screen
78 Text display column
79 Summary column
80 First search result display field
81 Second search result display field
90 Merge Module
91 Impression expression word / noun phrase set extraction module
92 Control Module A
93 Evaluation viewpoint selection module
94 Control Module B
95 Noun Phrase Pickup Module
96 calculation module
97 Most Frequent Noun Phrase Module
98 Flag setting module
101 Impression expression words and noun phrases
102 Notation shaking control dictionary
103 Thesaurus
104 Impression expression words and noun phrases after notation control
110 Flag setting system
111 Flag setting table
121 Flag setting table

Claims (6)

検索順位を付けられた検索データを取得する検索結果取得手段と、
前記検索結果取得手段にて検索データに含まれる文書データを取得する文書データ取得手段と、
前記文書データ取得手段にて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する抽出手段と、
前記抽出手段にて抽出された前記印象表現語と前記名詞句を統制する統制手段と、
前記統制手段にて統制された前記印象表現語と前記名詞句のセットを用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する差分手段と、
前記検索順位第2位以下の検索データに関して、前記差分手段にて取得した前記印象表現語と前記名詞句のセットを提示する提示手段と、
を具備したことを特徴とする検索結果提示装置。
A search result acquisition means for acquiring search data with a search order;
Document data acquisition means for acquiring document data included in search data in the search result acquisition means;
Extraction means for extracting impression expression words and noun phrases linked to the impression expression words for each of the search data from the document data acquired by the document data acquisition means;
Control means for controlling the impression expression word and the noun phrase extracted by the extraction means;
Using the set of impression expression words and noun phrases controlled by the control means, the search rank is determined from the set of impression expression words and noun phrases included in the search data having the search rank of second or lower. Difference means for acquiring the impression expression word and the noun phrase set excluding the impression expression word and the noun phrase set included in the first search data for each search data of the second or lower search order;
Presenting means for presenting the set of the impression expression word and the noun phrase acquired by the difference means with respect to the search data of the second or lower search rank;
A search result presentation apparatus comprising:
前記抽出手段は、前記印象表現語と前記名詞句と結びついた程度副詞がある場合は、当該程度副詞をセットとして取り出すことを特徴とする請求項1に記載の検索結果提示装置。  2. The search result presentation device according to claim 1, wherein, when there is a degree adverb associated with the impression expression word and the noun phrase, the extraction unit extracts the degree adverb as a set. 前記文書データに含まれる程度副詞、前記印象表現語、又は前記印象表現語と結びつく名詞句のうち、少なくとも1つを強調して提示する強調提示手段と、
前記文書データのうち、程度副詞、前記印象表現語、又は前記印象表現語と結びついた名詞句のうち、少なくとも1つを行を用いて当該文書データの要約を提示する要約提示手段と、
のうち、少なくとも1つを更に備えたことを特徴とする請求項1に記載の検索結果提示装置。
An emphasis presenting means for emphasizing and presenting at least one of a degree adverb included in the document data, the impression expression word, or a noun phrase associated with the impression expression word;
Summary presentation means for presenting a summary of the document data using at least one of a degree adverb, the impression expression word, or a noun phrase linked to the impression expression word among the document data;
The search result presentation device according to claim 1, further comprising at least one of them.
前記提示手段、又は前記強調提示手段、又は前記要約提示手段のうちの少なくとも1つの提示手段にて提示された程度副詞、又は印象表現語、又は前記印象表現語に結びついた名詞句を用いて検索要求文を作成することができる請求項3に記載の検索結果提示装置。  Retrieval using the degree adverbs, impression expressions, or noun phrases associated with the impression expressions presented by at least one of the presenting means, the emphasis presenting means, or the summary presenting means The search result presentation apparatus according to claim 3, wherein a request sentence can be created. 検索結果取得手段と、文書データ取得手段と、抽出手段と、統制手段と、差分手段と、提示手段と、を具備した検索結果提示装置において、検索結果を提示する際に用いられる検索結果提示方法であって、
前記検索結果取得手段が、検索順位を付けられた検索データを取得する第1のステップと、
前記文書データ取得手段が、前記第1のステップにて検索データに含まれる文書データを取得する第2のステップと、
前記抽出手段が、前記第2のステップにて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する第3のステップと、
前記統制手段が、前記第3のステップにて抽出された印象表現語と前記名詞句を統制する第4のステップと、
前記差分手段が、前記第4のステップにて統制された前記印象表現語と前記名詞句を用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する第5のステップと、
前記提示手段が、前記検索順位第2位以下の検索データに関して、前記第5のステップにて取得した前記印象表現語と前記名詞句のセットを提示する第6のステップと、
を有することを特徴とする検索結果提示方法。
Retrieval result presentation method used when presenting a retrieval result in a retrieval result presentation apparatus comprising retrieval result acquisition means, document data acquisition means, extraction means, control means, difference means, and presentation means Because
A first step in which the search result acquisition means acquires search data assigned a search order;
A second step in which the document data acquisition means acquires the document data included in the search data in the first step;
A third step in which the extraction means extracts a noun phrase linked to the impression expression word and the impression expression word for each search data from the document data acquired in the second step; and
A fourth step in which the control means controls the impression expression word extracted in the third step and the noun phrase;
The difference means uses the impression expression word and the noun phrase controlled in the fourth step, and the set of the impression expression word and the noun phrase included in the search data of which the search rank is second or lower. To obtain the set of the impression expression word and the noun phrase excluding the set of the impression expression word and the noun phrase included in the search data having the first search order for each search data of the second or lower search order. A fifth step to:
A sixth step in which the presenting means presents a set of the impression expression word and the noun phrase acquired in the fifth step with respect to search data of the second or lower search rank;
A search result presentation method characterized by comprising:
検索順位を付けられた検索データを取得する検索結果取得機能と、
前記検索結果取得機能にて検索データに含まれる文書データを取得する文書データ取得機能と、
前記文書データ取得機能にて取得した文書データから前記検索データごとに印象表現語と前記印象表現語に結びついた名詞句をセットで抽出する抽出機能と、
前記抽出機能にて抽出された前記印象表現語と前記名詞句を統制する統制機能と、
前記統制機能にて統制された前記印象表現語と前記名詞句のセットを用いて、前記検索順位が2位以下の検索データに含まれる前記印象表現語と前記名詞句のセットから前記検索順位が1位の検索データに含まれる前記印象表現語と前記名詞句のセットを除いた前記印象表現語と前記名詞句のセットを前記検索順位第2位以下の検索データごとに取得する差分機能と、
前記検索順位第2位以下の検索データに関して、前記差分機能にて取得した前記印象表現語と前記名詞句のセットを提示する提示機能と、
をコンピュータに実現するための検索結果提示プログラム。
A search result acquisition function that acquires search data with a search order,
A document data acquisition function for acquiring document data included in search data by the search result acquisition function;
An extraction function for extracting an impression expression word and a noun phrase linked to the impression expression word for each search data from the document data acquired by the document data acquisition function;
A control function for controlling the impression expression word and the noun phrase extracted by the extraction function;
Using the impression expression word and the noun phrase set controlled by the control function, the search order is determined from the set of the impression expression word and the noun phrase included in the search data having the second or lower search order. A difference function for acquiring the impression expression word and the noun phrase set excluding the impression expression word and the noun phrase set included in the first search data for each search data of the second or lower search order;
With respect to the search data of the search rank second or lower, a presentation function for presenting the set of the impression expression word and the noun phrase acquired by the difference function;
Search result presentation program for realizing the above on a computer
JP2002008218A 2001-03-30 2002-01-17 Search result presentation apparatus, search result presentation method, and search result presentation program Expired - Fee Related JP4129132B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002008218A JP4129132B2 (en) 2001-03-30 2002-01-17 Search result presentation apparatus, search result presentation method, and search result presentation program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001102708 2001-03-30
JP2001-102708 2001-03-30
JP2002008218A JP4129132B2 (en) 2001-03-30 2002-01-17 Search result presentation apparatus, search result presentation method, and search result presentation program

Publications (2)

Publication Number Publication Date
JP2002358323A JP2002358323A (en) 2002-12-13
JP4129132B2 true JP4129132B2 (en) 2008-08-06

Family

ID=26612927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002008218A Expired - Fee Related JP4129132B2 (en) 2001-03-30 2002-01-17 Search result presentation apparatus, search result presentation method, and search result presentation program

Country Status (1)

Country Link
JP (1) JP4129132B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972370B2 (en) 2008-08-05 2015-03-03 Tokyo Denki University Repetitive fusion search method for search system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004447A (en) * 2003-06-11 2005-01-06 National Institute Of Information & Communication Technology Method and device for classification of impression expression phrase
JP4385697B2 (en) * 2003-09-24 2009-12-16 株式会社日立製作所 Concept search method and system
JP4876706B2 (en) * 2006-05-10 2012-02-15 弘通 齋藤 Image search system
BR112012026750A2 (en) * 2010-04-30 2016-07-12 Thomson Licensing automatic image discovery and recommendation for displayed television content
CN109597984B (en) * 2017-09-30 2023-05-23 北京国双科技有限公司 Impression label extraction method and device
JP6978174B2 (en) * 2017-10-11 2021-12-08 アルパイン株式会社 Evaluation information generation system and in-vehicle device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972370B2 (en) 2008-08-05 2015-03-03 Tokyo Denki University Repetitive fusion search method for search system

Also Published As

Publication number Publication date
JP2002358323A (en) 2002-12-13

Similar Documents

Publication Publication Date Title
US7930302B2 (en) Method and system for analyzing user-generated content
CN111695022B (en) Interest searching method based on knowledge graph visualization
JP2012027845A (en) Information processor, relevant sentence providing method, and program
US8577887B2 (en) Content grouping systems and methods
US20070255553A1 (en) Information Extraction System
CN107862561A (en) A kind of method and apparatus that user-interest library is established based on picture attribute extraction
CN102955848A (en) Semantic-based three-dimensional model retrieval system and method
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
JP2008287517A (en) Highlighting device and program
JP3738011B2 (en) Information processing apparatus, information processing method, and information processing program
CN109325115A (en) A kind of role analysis method and analysis system
CN112133406B (en) Multi-mode emotion guidance method and system based on emotion maps and storage medium
CN112749272A (en) Intelligent new energy planning text recommendation method for unstructured data
JP4129132B2 (en) Search result presentation apparatus, search result presentation method, and search result presentation program
JPH10254911A (en) Method, device for preparing retrieval conditions, method for retrieving object while using the same and retrieval system using the same
JP5599073B2 (en) Kansei analysis system and program
JP3408998B2 (en) Data search device and storage medium storing data search program
JP2003157255A (en) Device, method and program for processing information
JP2012256284A (en) Sensibility analysis system and program
JP4712221B2 (en) Subjective feature element generation apparatus, subjective feature element generation method, and subjective feature element generation program
CN111831884B (en) Matching system and method based on information search
JP7427510B2 (en) Information processing device, information processing method and program
JP4949012B2 (en) Explanation sentence selection apparatus, explanation sentence selection method, explanation sentence analysis apparatus, and explanation sentence analysis method
JP2004038729A (en) Information processor, information processing method, and information processing program
JP4156279B2 (en) Information processing apparatus, information processing method, information processing program, and data search apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080422

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080516

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees