JP4712221B2 - 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム - Google Patents

主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム Download PDF

Info

Publication number
JP4712221B2
JP4712221B2 JP2001138002A JP2001138002A JP4712221B2 JP 4712221 B2 JP4712221 B2 JP 4712221B2 JP 2001138002 A JP2001138002 A JP 2001138002A JP 2001138002 A JP2001138002 A JP 2001138002A JP 4712221 B2 JP4712221 B2 JP 4712221B2
Authority
JP
Japan
Prior art keywords
data
impression
frequency
subjective
impression expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001138002A
Other languages
English (en)
Other versions
JP2002297659A (ja
Inventor
かほ里 増田
真 佐野
淳 高藤
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2001138002A priority Critical patent/JP4712221B2/ja
Publication of JP2002297659A publication Critical patent/JP2002297659A/ja
Application granted granted Critical
Publication of JP4712221B2 publication Critical patent/JP4712221B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラムに関し、例えば、コンピュータでイメージ情報を検索する際に使用する主観的特徴要素を自動的に生成するものに関する。
【0002】
【従来の技術】
近年のコンピュータの急激な進展と共に、膨大なデータの中から目的のデータを効率よく検索する方法が求められている。このようなデータの検索方法は種々提案されており、例えば、キーワードを用いた文献検索などの記号情報を用いた検索方法が知られている。
ところで、近年、感性情報を用いた検索方法が提案されるようになってきた。
これは、ユーザが対象に対して抱いている印象から対象とするデータを検索するものである。
このようなものに、例えば、静止画や動画などのイメージ情報を印象表現語から検索するイメージ情報検索があり、例えば、「秋らしくて淡い絵」と入力すると、印象表現語である「秋らしい」、「淡い」から適当な絵が検索される。
【0003】
主観的特徴要素とは、印象を表す形容詞・形容動詞に代表される印象表現語のうち、主観的な類似性(直感的な印象が似ているもの)を表す要素として主要な表現語のことである。
また、印象表現語とは、例えば、「やわらかい」、「クリアな」など、対象となるものの直感的な印象を形容詞や形容動詞などによって表現する語である。
例えば、ワインデータベースを作成する場合、「フレッシュな」、「フルーティーな」、「甘い」、「繊細な」、「力強い」などが主観的特徴要素と考えられる。
主観的特徴要素は、印象の対象(評価視点という)に応じて様々あり、例えば、評価視点がビールなら「コクのある」、「キレのある」、「のどごしのよい」、…などがあり、評価視点が部屋なら「広い」、「狭い」、「綺麗な」、「汚い」、…などが主観的特徴要素であると考えられる。
【0004】
(従来例1)
このようなイメージ検索方法として、例えば、本出願人の提案による特願平11−281501(未公開)の「データ検索装置、及びデータ検索用プログラムが記憶された記憶媒体」がある。
この発明は、直感的に主観的特徴要素を生成する場合、対象とするデータなどから主要と思われる成分を収集し、各々が独立的な要素として成り立つよう人間の目(感性)で選択するというプロセスが加わる。より客観性を重視して行おうとするとSD法(Sematic Differential Method)を用いた被験者によるアンケート結果を利用した方法が一般的である。
図18は、一例として、直感に頼ってホテルコンテンツから主観的特徴要素を生成する場合を説明する図である。
まず、インターネットを用いるなどしてホテルコンテンツを収集する。そして、ホテルコンテンツのイメージ情報付属データ901(イメージ情報に付属したホテルの説明文など)からキャッチコピーやキーワードとなりうる印象表現語を設計者などが選択してキーワードデータ902を作成する。
次に、各々が独立した印象表現語であるか否かを設計者などが吟味し、主要な要素を5つ程度に絞り込む。そして、絞り込んだ主要な要素に対義語があれば付け加える。その結果、当該対象に対する主観的特徴要素データ903が得られる。
【0005】
(従来例2)
図19は、SD法を用いてホテルコンテンツから主観的特徴要素を生成する場合を示した図である。
まず、従来例1と同様にして、設計者などがイメージ情報付属データ905からキーワードとなりうる印象表現語を10個程度収集する。そして収集した印象表現語を対義語を付け加えてキーワードデータ906を生成する。
次に、被験者5人程度によるSD法アンケートを行い、アンケート結果907を取得する。
5人のアンケート結果907の平均をとり、そして主成分分析を行い、主観的特徴要素データ908を得る。
【0006】
(従来例3)
本出願人は、未公開の特願平11−281501において、形容詞句のみを対象として主観的特徴を生成する方法を提案している。この方法は、評価視点(形容詞が修飾する名詞句)を明らかにせずに対象の主観的特徴要素を抽出し、イメージ情報の印象表現データの推定を行うものである。
図20(a)は、ホテルコンテンツにて、評価視点を定めずに主観的特徴要素を生成する場合を説明するための図である。
【0007】
まず、従来例1と同様にしてイメージ情報付属データ911から印象表現語を抽出して、該印象表現語の対義語を加えてキーワードデータ912を生成する。キーワードデータ912から印象表現語を推定して印象表現語推定データ913を生成する。
【0008】
【発明が解決しようとする課題】
しかし、従来例1では、主観的特徴要素の設計者によって生成される主観的特徴要素が変わってくる。また、設計者の主観が大きく影響するため、客観的な結果が得られにくいという問題があった。
また、従来例2では、アンケートの収集にコストがかかるという問題があった。また、被験者を用いるため、被験者の主観により結果として主観的特徴要素がうまく生成されない可能性があった。
【0009】
更に、従来例3の印象表現語推定データ913では、評価視点が明確になっておらず、何を評価しているのかという着目視点が不明になってしまうという問題があった。
例えば、印象表現語推定データ913では「広い」という主観的特徴要素が抽出てきたが、イメージ情報付属データ912を見てみると「広い−部屋」、「広い−エントランス」、「広い−大浴場」と評価視点が異なっている。その結果、印象表現推定を行い「部屋が広いホテル」で検索を行うと、図20(b)の検索結果917に示したように、ユーザに「エントランスと大浴場が広いホテル」を紹介してしまっている。この問題を解決するためには、何が「広い」のかを明確にする機構が必要である。
【0010】
そこで、本発明の目的は、適正かつ効率的に主観的特徴要素を生成することのできる主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラムを提供することである。
【0011】
【課題を解決するための手段】
請求項1記載の発明では、複数の文書をマージした頻度抽出用文書と、前記頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する抽出手段と、前記抽出手段が抽出した前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する頻出度データ出力手段と、前記頻出度データ出力手段が出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のぞれぞれ、をマッチングし、マッチした頻度をマッチングデータとして取得するマッチング頻度取得手段と、前記複数の文書と、前記マッチング頻度取得手段にて取得したマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する主成分負荷量生成手段と、前記主成分負荷量生成手段が生成した主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する主観的特徴要素データ出力手段と、を具備したことを特徴とする主観的特徴要素生成装置を提供する
請求項2記載の発明では、前記抽出手段にて抽出された前記印象表現語と前記名詞句のセットの表記を統制する統制手段を更に備え、前記統制手段は前記マッチング頻度取得手段がマッチングを行う前に、前記印象表現語と前記名詞句のセットの表記を統制することを特徴とする請求項1に記載の主観的特徴要素生成装置を提供する
請求項3記載の発明では、前記統制手段は、前記印象表現語の活用形を終止形に統制する活用形統制手段、又は、前記印象表現語の表記揺れを統制する表記揺れ統制手段、又は、前記名詞句を上位語又は同義語に統制するシソーラス統制手段のうち少なくとも1つによって統制することを特徴とする請求項に記載の主観的特徴要素生成装置を提供する
請求項4記載の発明では頻度抽出用文書取得手段と、抽出手段と、頻出度データ出力手段と、マッチング頻度取得手段と、主成分負荷量生成手段と、主観的特徴要素データ出力手段と、を備える主観的特徴要素生成装置を用いた主観的特徴要素生成方法であって、
前記頻度抽出用文書取得手段が、複数の文書をマージした頻度抽出用文書を取得する第1のステップと、前記抽出手段が、前記第1のステップにて取得した前記頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する第2のステップと、前記頻出度データ出力手段が、前記第2のステップにて抽出された前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する第3のステップと、前記マッチング頻度取得手段が、前記第のステップにて出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のそれぞれと、をマッチングし、マッチした頻度をマッチングデータとして取得する第4のステップと、
前記主成分負荷量生成手段が、前記複数の文書と、前記第4のステップにて取得されたマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する第5のステップと、前記主観的特徴要素データ出力手段が、前記第5ステップにて生成された主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する第6ステップと、
を有することを特徴とする主観的特徴要素生成方法を提供する
請求項5記載の発明では、複数の文書をマージした頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する抽出機能と、前記抽出機能が抽出した前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する頻出度データ出力機能と、前記頻出度データ出力機能が出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のぞれぞれ、をマッチングし、マッチした頻度をマッチングデータとして取得するマッチング頻度取得機能と、前記複数の文書と、前記マッチング頻度取得機能にて取得したマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する主成分負荷量生成機能と、前記主成分負荷量生成機能が生成した主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する主観的特徴要素データ出力機能と、をコンピュータに実現させるための主観的特徴要素生成プログラムを提供する
【0012】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明の第1の実施の形態について、図1から図7を参照して詳細に説明する。図1は、第1の実施の形態に係る主観的特徴要素生成装置11の構成を示した図である。
主観的特徴要素生成装置11は、中央制御部12、入出力部16、モデム17記憶装置18などから構成されてる。
入出力部16は、例えば、キーボード、マイクロフォン、マウスなどの入力装置や、ディスプレイ装置、プリンタ、スピーカ、などの出力装置、或いは、磁気ディスクドライバなどの入出力装置に接続しており、入力装置を介してユーザからイメージ検索に必要な情報を取得したり、また、出力装置を介してユーザに対して検索情報を提示したり、また磁気ディスクなどへ入出力することにより磁気ディスクなどへデータの書き込み及び読み込みを行ったりすることができるようになっている。
【0013】
記憶部18は、例えばハードディスクやその他の不揮発性メモリなどによって構成された記憶装置である。記憶部18は、主観的特徴要素生成プログラムや、イメージ情報検索プログラム、その他のプログラムが記憶されたプログラム部19と、各種データがデータベース化された記憶されているデータ部20、後に説明する印象表現抽出用コーパス23、印象表現語(形容詞など)の活用形の統制を行う際に使用する表記ゆれ統制辞書24、評価視点(印象表現語に強く結びついた名詞句)を統制する際に使用するシソーラス辞書25を含んでいる。
【0014】
モデム17は、例えばインターネットなどのネットワークを介して主観的特徴要素生成装置11が外部と通信をするための部分である。
中央制御部12は、CPU(Central Processing Unit)13、ROM(Read Only Memory)14、RAM(Random Access Memory)15から構成されている。
RAM15は、プログラム部19のプログラムをロードしたり、CPU13にワーキングメモリを提供したりする読み書き可能なメモリである。
【0015】
ROM14は、主観的特徴要素生成装置11を動作させるための基本的なプログラムやパラメータを記憶した読取専用のメモリである。
CPU13は、ROM14に記憶されたプログラムやRAM15にロードされたプログラムなどに従って、各種の演算や判断を行うと共にバスライン21を介して入出力部16、モデム17、記憶装置18などとのデータの送受信、及びこれらの機器の制御など行う部分である。
【0016】
図2は、主観的特徴要素生成システム34の構成を示したブロック図である。
これらの構成要素のうち、印象表現コーパス23、表記揺れ統制辞書24、シソーラス辞書25は、記憶部18(図1)に記憶されている。
その他のモジュールは、プログラム部19に記憶されている主観的特徴要素生成プログラムがRAM15にロードされることによってソフトウェア的に実現されるモジュールである。
【0017】
以下に、主観的特徴要素生成システム34の各構成要素の働きを図1から図7までの各図を利用しながら説明する。
まず、印象表現抽出用コーパス23を作成する。
印象表現抽出用コーパス23は、イメージ情報付属文書データを収集し、全てをマージ(合併)したデータである。コーパスとはデータの集合というような意味である。このマージは、自動的に行うこともできるし、手動で文書データを収集することもできる。
【0018】
例えば、まず、以下のように、全国の温泉宿の評価を行っているサイトから1旅館につき1データずつ収集する。
データ1:部屋が広く、静かな環境。温泉はダイナミック
データ2:エントランスがひろく、大浴場も広い。
次いで、これらのデータをマージして一つのデータとする。
印象表現抽出用コーパス23に生成されたマージ後のデータ:(データ1)部屋が広く、静かな環境。温泉はダイナミック(データ2)エントランスがひろく、大浴場も広い。・・・・
【0019】
セットデータ生成モジュール26は、印象表現抽出用コーパス23から印象表現語及び印象表現語と強く結びつく名詞句(評価視点)をセットで取り出す。
図3は、セットデータ生成モジュール26の働きを説明するための図である。セットデータ生成モジュール26は、印象表現抽出用コーパス23からコーパスデータ35を受け取り、印象表現語評価視点セットデータ36を生成する。
例えばコーパスデータ35中の「部屋が広く」という語句から、印象表現語「広い」と名詞句(評価視点)「部屋」のセットが生成され、「静かな環境」という語句は、印象表現語「静かな」と名詞句「環境」のセットが生成される。
【0020】
活用形統制モジュール27(図2)は、セットデータ生成モジュール26から印象表現語評価視点セットデータ36を受け取り、印象表現語(形容詞・形容動詞などで構成されている)の用言活用形を終止形に統制して、活用形統制データを生成する。次いで、表記揺れ統制モジュール28は、表記揺れ統制辞書24を用いながら、活用形統制データにある表記揺れを統制する。
【0021】
図4は、活用形統制モジュール27と表記揺れ統制モジュール28の働きを説明するための図である。
まず、活用系統制モジュール27は、印象表現語評価視点セットデータ36の中にある用言の活用形を終止形に統制して活用形統制データ37を生成する。
例えば、印象表現語評価視点セットデータ36の中の印象表現語「広く」は「広い」に、「静かな」は「静かだ」に、又「ダイナミックな」は、「ダイナミックだ」といったように、それぞれ終止形に統制される。
【0022】
次に、表記揺れ統制モジュール28は、活用形統制データ37内の表記揺れを統制し、表記揺れ統制データ38を生成する。表記揺れの統制は、表記揺れ辞書24を参照し、読みが同じでかつ同義である漢字、ひらがな、カタカナ間の表記の揺れを正規化表記へ統制することにより行われる。
例えば、活用形統制データ37の中の「ひろい」は、表記揺れ統制辞書24内の正規化データ「ひろい→広い」により、「広い」に正規化される。即ち「ひろい」と「広い」は表記は異なるが明らかに同じ意味を指し示すため、ここでは「広い」に統制する。なお、「あつい」のように、「厚い」、「暑い」、「熱い」と多義性を持つものの統制はここでは行わない。
【0023】
名詞句統制モジュール29(図2)は、表記揺れ統制モジュール28から表記揺れ統制データ38を取得する。そして、シソーラス辞書25を参照しながら、表記揺れ統制データ38の中の名詞句を、上位語がある場合は、上位語に変換し、また、同義語がある場合は正規化表記へ統制する。
図5は、名詞句統制モジュール29の働きを説明するための図である。
名詞句統制モジュール29は、表記揺れ統制モジュール28から表記揺れ統制データ38を取得し、シソーラス辞書25を参照しながら名詞句統制データ39を生成する。名詞句統制の過程で、表記揺れ統制データ38の中の、例えば、「大浴場」、「銭湯」、「バスルーム」などの語句は、シソーラス辞書25の情報(例えば、「大浴場」の上位語は「風呂」であり、「銭湯」の上位語は「風呂」であり、「バスルーム」と「風呂」は同義語であるといったような情報)から「風呂」に揃えられる。
このように、名詞句について上位、下位、同義の関係にあるものは、同じ対象として扱いたいため、シソーラス辞書25を用いて上位語などに統制する。
【0024】
重複頻度算出モジュール30(図2)は、活用形統制、表記揺れ統制、名詞句統制などの統制が行われた名詞句統制データ39を名詞句統制モジュール29から取得し、統制後の印象表現語と名詞句(評価視点)の各セットについて頻度を算出する。そして、算出した頻度を頻出度データとして主観的特徴要素生成モジュール31に出力する。ここで、重複頻度が高いセットが主たる特徴要素の候補となる。
【0025】
主観的特徴要素生成モジュール31は、頻出度データで得られた重複頻出度数が高い印象表現語と名詞句(評価視点)のセットについて以下の手法で自動的に主観的特徴要素を抽出する。
(1)重複頻度数が高い印象表現語と名詞句(評価視点)のセットを主観的特徴要素の候補として取り出す。
(2)各イメージ情報付属文書データごとに印象表現語と名詞句(評価視点)をセットで取り出す。このイメージ情報付属文書データは、例えば、イメージ情報検索データベースに用いるものである。
(3)(1)で抽出した主観的特徴要素候補の各セットと(2)で取り出した各セットがマッチしたら1カウントとして、マッチした頻度を各イメージ情報付属データごとに抽出する。
(4)各主成分候補のセット(即ち、主観的特徴要素候補の各セット)について、各イメージ情報データごとにマッチした頻度を分析データとして主成分分析を行う。この結果より、例えば上位5位など主成分ごとに主成分負荷量が最も大きい候補上位数件を主観的特徴要素として採用する。
なお、ここで用いる主成分分析は、多変量解析の分野で一般に使用されている公知の方法である。また、主成分分析の他に例えば因子分析など、同様の多変量解析手法で多数の軸を持つデータ郡を、より代表的な軸で構成されるデータ郡へと縮体(代表化)させる機能を持った解析手法なら、どのような手法でも適用できる。
【0026】
図6は、主観的特徴要素決定モジュール31の働きを説明するための図である。
まず、主観的特徴要素生成モジュール31は、頻度データから「広い」/「部屋」や「広い」/「風呂」などの出現頻度の高い印象表現語を評価視点とセットにして取り出す。このセットが主観的特徴要素の候補となる。
次に、主観的特徴要素生成モジュール31は、検索データベースなどに用いるホテル「きのくにや」やホテル「季の郷 湯ら里」などのイメージ情報に付属した文書データごとに印象表現語と評価視点をセットで取り出す。
なお、取り出した印象表現語と評価視点のセットは、後のマッチングの為に、活用形統制モジュール27、表記揺れ統制モジュール28、名詞句統制モジュール29などを用いてマッチングの前に活用統制、表記揺れ統制、名詞句統制を施しておく。
【0027】
次に、主観的特徴要素決定モジュール31は、主観的特徴要素の候補の各セットと、イメージ情報付属文書データから取り出した各セットをマッチングしてマッチングの頻度を表わすマッチングデータ41を作成する。
マッチングデータ41(図6)では、ホテル「きのくにや」のイメージ情報に付属した文書データでは、「広い」/「部屋」が7回、「広い」/「風呂」が4回マッチしている。
次に、主観的特徴要素決定モジュール31は、「広い」/「部屋」などの各主観的特徴要素の候補ごとに、マッチした頻度を分析データとして主成分分析を行い、主成分負荷量データ42を生成する。
主成分負荷量データ42では、主観的特徴要素候補「広い」/「部屋」の第一主成分の主成分負荷量は0.91、第2主成分の主成分負荷量は0.21などとなっている。
【0028】
次に、主観的特徴要素決定モジュール31は、主成分負荷量データ42から主成分ごとに主成分負荷量が最も大きい候補上位数件から主観的特徴要素データ43を生成して出力する。
主観的特徴要素データ43は、以上の手続きにより決定された主観的特徴要素からなるデータで、「広い」/「部屋」、「広い」/「風呂」、「綺麗だ」/「部屋」、「高い」/「値段」、「静かだ」/「環境」・・・などの印象表現語と評価視点のセットが、ホテルのイメージ情報の主観的特徴要素として決定されたことを意味している。
なお、図中の「ダイナミック」/「風呂」は、上位に入らず「広い」/「風呂」に、その主観的特徴が代表されるかたちとなる。即ち、この例では、第1主成分において「広い」/「部屋」が最も高い主成分負荷量0.91を持っているため、第1主成分では、「ダイナミック」/「風呂」(負荷量0.71)は採用されない。
このように主観的特徴決定システム31(図2)は、従来行われていたSD法アンケートと同等の効果を言語処理を用いて得ることができる。
【0029】
主観的特徴要素決定モジュール31が生成した主観的特徴要素データ43は、例えば、イメージ情報検索システム33(図2)の主観評価表現辞書32に出力される。主観評価表現辞書32は、例えば、イメージ情報を検索する際に使用される主観的特徴要素などで構成された辞書である。
【0030】
図7は、以上のように、印象表現語と名詞句(評価視点)のセットにて生成された主観的特徴要素を用いた辞書を使用した場合のイメージ情報検索の概念を示した図である。
例えば、ユーザが「部屋の広いホテルに行きたい」とのクエリー45を作成した場合、検索のキー46は「広い」/「部屋」と印象表現語と名詞句(評価視点)のセットになる。
これを用いてイメージ情報付属文書データベース47を検索すると「広い」/「部屋」にヒットするイメージ情報が検索されて検索データ48が作成される。
なお、検索データ48では、イメージ情報付属文書データに「広い」/「部屋」というセットが出現する回数が多い順に順位付けされている。
【0031】
図8は、主観的特徴要素生成システム34を用いて、主観的特徴要素を決定する場合の手順を示したフローチャートである。
まず、イメージ情報付属文書データを収集してマージし、頻度情報抽出用コーパス23を作成する(ステップ10)。
次に、セットデータ生成モジュール26が、頻度情報抽出用コーパス23から印象表現語とこれに結びついた評価視点をセットとして取り出して、印象表現語評価視点セットデータ36を生成する(ステップ20)。
次に、活用形統制モジュール27が、印象表現語評価視点セットデータ36中の印象表現語の活用形の語尾を終止形に統制し、活用形統制データ37を生成する(ステップ30)
【0032】
次に、表記揺れ統制モジュール28が表記揺れ統制辞書24を参照しながら、活用形統制データ中の表記揺れを統制し、表記揺れ統制データ38を生成する(ステップ40)。
次に、名詞句統制モジュール29が、シソーラス辞書25を用いて名詞句の統制を行い、名詞句統制データ39を生成する(ステップ50)。
次に、重複頻度算出モジュール30が、頻度の高い印象表現語と評価視点のセットを抽出して頻出度データを生成する(ステップ60)。
【0033】
次に、主観的特徴要素決定モジュール31が、頻出度データと各イメージ情報付属文書データをマッチングしてマッチングデータ41を生成する(ステップ70)
いで、主観的特徴要素決定モジュール31は、マッチングデータ41とイメージ情報付属文書データを用いて主成分分析を行い、主成分負荷データ42を生成する(ステップ80)。
いで、主観的特徴要素決定モジュール31は、主成分負荷データ42のうち、上位数件を主観的特徴要素として主観的特徴要素データ43を生成する(ステップ90)。
【0034】
以上に説明した本実施の形態により以下のような効果を得ることができる。
まず、主たる主観的特徴要素をイメージ情報データを用いて自動的に生成することができる。
また、イメージ情報検索を行う対象データの説明文を全てマージした頻度情報抽出用コーパス23から頻度情報を抽出することにより、SD法アンケートなどによらずとも主観的特徴要素を得ることができる。
更に、イメージ情報検索などを行う対象となる文書より、印象表現語(形容詞句)と評価視点をセットで取り出して分析するので、評価視点と対応付けて主観的特徴要素を決定することができる。
【0035】
加えて、印象表現コーパス23から取り出した印象表現語と評価視点のセットの、印象表現コーパス23での重複度を頻度情報として取り込むことにより、頻度の高いものを主観的特徴要素の候補として採用することができる。
また、頻度情報を取り込む際に、単純な字面の一致ではなく、用言活用形や漢字とひらがななどの表記の揺れを統制した結果を利用することができ、マッチングが行いやすくなる。
また、評価対象となる被修飾名詞句グループをシソーラス辞書にて集約することができる。
更に、上記の統制、集約を行い得られた結果を頻度情報取得のための印象表現語と評価視点のセットとして利用することができる。
【0036】
更に、主観的特徴要素の印象表現語と評価視点のセットのそれぞれについて、イメージ情報の付属文書ごとの頻度をマッチングにより出すことができる。そして、この結果を主成分分析にかけることにり、主たる主観的特徴要素を決定することができる。
【0037】
以上、本実施の形態では、主観的特徴要素生成システム34は、例えば、イメージ情報検索システムに利用されるものとしたが、これに限定するものではなく、広くSD法の代わりとして使用できるものである。
また、印象表現コーパス23、表記揺れ統制辞書24、シソーラス辞書25は、記憶装置18(図1)に置かず、ネットワークを介して他のサーバに置いておき、モデム17を介して、これらの情報を利用するように構成することもできる。
また、検索用のクライアント・コンピュータをネットワークを介して接続し、主観的特徴要素生成装置11をイメージ情報検索サーバとして使用することもできる。
【0038】
(第2の実施の形態)
ところで、本出願人は、特願平11−28101(未公開)のデータ検索装置を提案している。第2の実施の形態では、第1の実施の形態で述べたデータ検索システムとして、当該データ検索装置を用いる。
また、特願平11−28101は、印象表現語と名詞句のセットを用いてイメージ情報を検索するようには構成されていないが、これを印象表現語と名詞句のセットにて検索できるようにシステムを一部変更する。
まず、特願平11−28101のデータ検索装置について説明する。
【0039】
本データ検索装置は、主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書と、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語に対する印象データが布置された主観評価表現辞書と、検索条件として、自然言語により主観的に表現された検索条件文を取得する検索条件文取得手段と、この検索条件文取得手段で取得した検索条件文から印象表現語を抽出し、前記主観評価表現辞書に格納された当該印象表現語の印象データから、前記取得された検索条件文に対する印象データを生成する検索印象データ生成手段と、この検索印象データ生成手段により生成された印象データに最も類似する印象データのイメージ情報を前記主観評価情報辞書から検索するイメージ情報検索手段と、このイメージ情報検索手段で検索されたイメージ情報を出力する出力手段と、を具備している(第1の構成)。
また、第1の構成は、前記主観評価表現辞書に格納された各印象表現語に対する印象データは、各座標軸に対する範囲指定する範囲データを備えている(第2の構成)。
また、第1の構成又は第2の構成は、新たなイメージ情報に関するテキストデータを取得するテキストデータ取得手段と、このテキストデータ取得手段で取得したテキストデータから印象表現語を抽出し、前記主観評価表現辞書に格納されている当該印象表現語の印象データから前記新たなイメージ情報に対する印象データを生成する印象データ生成手段と、この印象データ生成手段で生成した印象データを前記新たなイメージ情報の印象データとして前記主観評価情報辞書に登録するイメージ情報追加手段と、を具備するように構成することができる(第3の手段)。
また、第1の手段、第2の手段又は第3の手段は、テキストデータ印象表現語を抽出する抽出手段と、この抽出手段で抽出した印象表現語に、前記主観評価表現辞書に登録済みの印象表現語と未登録の印象表現語が存在する場合、前記登録済みの印象表現語に対する印象データから前記未登録の印象表現語に対する印象データを生成する印象表現語印象データ生成手段と、この印象表現語印象データ生成手段で生成した印象データを前記未登録の印象表現語の印象データとして前記主観評価表現辞書に登録する印象表現語追加手段と、を具備するように構成することができる(第4の構成)。
更に、第1の構成から第4の構成までのうちの何れかの1の構成の主観評価情報辞書は、各イメージ情報に対する客観的な特徴条件を備え、前記イメージ情報検索手段は、前記検索条件取得手段から客観的な特徴条件が取得された場合には、当該客観的な特徴条件を制約条件として、イメージ情報を絞り込むように構成することができる(第5の構成)。
更に、第1の構成から第5の構成までのうちの何れかの1の構成の前記主観評価情報辞書は、各イメージ情報に対する印象データと共に客観的特徴条件を備え、新たなイメージ情報の客観的特徴条件に基づいて、前記主観評価情報辞書に格納されたイメージ情報の印象データと客観的な特徴情報との関係から、前記新たなイメージ情報に対する印象データを生成し、前記主観表現辞書に格納する第2のイメージ情報追加手段を具備するように構成することができる(第6の構成)。
更に、第1の構成から第6の構成までのうちの何れかの1の構成の前記検索条件取得手段は、ネットワークに接続された外部装置から前記検索条件を取得し、前記出力手段は、前記ネットワーク接続された外部装置にイメージ情報を出力するように構成することができる(第7の構成)。
また、本データ検索装置に関連したデータ検索用プログラムとして、主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書を作成する機能と、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語に対する印象データが布置された主観評価表現辞書を作成する機能と、検索条件として、自然言語により主観的に表現された検索条件文を取得する検索条件文取得機能と、この検索条件文取得機能で取得した検索条件文から印象表現語を抽出し、前記主観評価表現辞書に格納された当該印象表現語の印象データから、前記取得された検索条件文に対する印象データを生成する検索印象データ生成機能と、この検索印象データ生成手段により生成された印象データに最も類似する印象データのイメージ情報を前記主観評価情報辞書から検索するイメージ情報検索機能と、このイメージ情報検索手段で検索されたイメージ情報を出力する出力機能と、をコンピュータに実現させるためのデータ検索用プログラムと、該データ検索用プログラムが記録された記録媒体がある。
【0040】
(1)データ検索装置の概要
主観的類似性要素を座標軸とする座標空間に、検索対象となるイメージ情報に対する印象データが布置された主観評価情報辞書5(図14参照)を保持する。
また、主観的類似性要素を座標軸とする座標空間に、検索キーとなる印象表現語の印象データが布置された主観評価表現辞書4(図11参照)を保持する。主観評価表現辞書4の印象データには各座軸に対する座標値と、座標値を中心として各座標軸上での範囲を指定する範囲データを備えている(図12参照)。
そして、検索条件として、自然言語により主観的に表現された検索条件文から自然言語処理により印象表現語を抽出し、主観評価表現辞書4から対応する印象データを抽出する。印象表現語が複数存在する場合には、統合処理により統合した1又は複数の印象データを検索印象データとして生成する。そして、主観的類似性要素を座標軸とする座標空間において、各検索印象データとのユークリッド距離が最も近い印象データを有するイメージ情報を検索結果として出力する。
一方、新たなイメージ情報を追加する場合には、追加するイメージ情報に付加される説明文等のテキストデータから印象表現語を抽出し、統合化処理によって1つの印象データに統合する。その印象データから範囲データを除いた座標値からなる印象データを追加するイメージ情報の印象データとして主観評価情報辞書5に登録する。
また、イメージ情報検索、イメージ情報追加の処理過程で主観評価表現辞書4に未登録の印象表現語が抽出された場合、同処理で使用される文章やテキストデータに含まれる他の印象表現語の印象データを統合することで1つの印象データを生成し、当該印象表現語の印象データとして主観評価表現辞書4に登録する。
【0041】
(2)データ検索装置の詳細
図9はデータ検索装置の構成を概念的に表したものである。
この概念構成図に示されるように、データ検索装置は、入力手段1、検索条件文取得手段2、検索印象データ生成手段3、主観評価表現辞書4、主観評価情報辞書5、イメージ情報検索手段6、出力手段7、イメージ情報追加手段8及び印象表現語追加手段9を備えている。
入力手段1は、ユーザが希望する自然言語による検索条件文を入力するためのもので、キーボードや、音声認識装置が使用される。
検索条件文取得手段2は、入力手段1から入力された検索条件文を取得し、又は、有線接続や無線接続された外部装置から送信される検索条件文を通信手段を使用して取得する。外部装置としては、LAN接続された他のパーソナルコンピュータや、ワールド・ワイド・ウェブ(WWW)によりインターネットに接続された外部のパーソナルコンピュータなどが該当し、検索条件文取得手段は、これら外部装置からも検索条件文を取得可能に構成されている。
検索印象データ生成手段は、検索条件文取得手段で取得した検索条件文から、印象表現語等の抽出と、抽出した印象表現語に対応する印象データを主観評価表現辞書4から抽出し、検索印象データの生成を行う。
【0042】
主観評価表現辞書4は、例えば、ビールについての検索を行う場合に、希望するビールについてのイメージや感覚等の印象を自然言語で表現する場合に使用される印象表現語を各カテゴリ毎に分類して格納した辞書である。ここで印象表現語とは、検索対象となるイメージ情報の物理的な特徴ではなく、直感的な印象を「やわらかい」、「クリアな」等の形容詞や形容動詞によって表現する言葉(感性語)である。
ここで検索対象となるイメージ情報として取り扱えるのは、主観的類似性によってその相対関係を表現できるデータ形式すべてであり、例えば、動画、静止画などの画像の他に、音楽データや、音声データ、出版物等のテキストデータそのもの、その他の信号データ、また、これらを要素とするコンテンツも含まれる。
図10は主観評価表現辞書4の内容を概念的に表したものである。
この図10に示されるように、主観評価表現辞書は、(ビール、ワイン、日本酒、映画、テレビ番組情報、Web上の旅行情報、オンラインショッピング等の、)検索対象となるイメージ情報に対する各種カテゴリ毎に分類されている。そして、各カテゴリに属するイメージ情報の印象を表すのに用いられる印象表現語、(具体的には形容詞・形容動詞に代表される表現語と程度副詞(「やや」「かなり」などの程度を指し示す副詞)、さらに印象の要因と強く結びついている名詞・固有名詞)等が予め各カテゴリ毎に収集され、主観評価表現辞書に格納される。
【0043】
一方、各カテゴリに対して、そのカテゴリに属するイメージ情報に対して、主観的な類似性を表す要素(主観的類似性要素)を抽出する。例えば、対象とするイメージ情報のカテゴリを映画とすると、作品の性質を「スリル度」、「感動度」、「コメディ度」等の主観的類似性要素を抽出する。また、カテゴリ「ビール」に対しては、図10に示されるように、「こく」「キレ」「うまみ」「のどごし」「爽快感」等の主観的類似性要素が抽出されている。
そして、各印象表現語に対して主観的類似性要素の強さを指定することで、各印象表現語に対する印象データ(主観的類似性要素を座標軸とする座標空間に布置される、多次元の座標値(ベクトル)が決定されている。すなわち、収集した印象表現語に対して、個々の表現が主観的な類似性要素の強さを指定する、すなわち印象データ空間の特定の範囲を指し示すという仮説に基づいて、各類似性要素の相対的なレベル値が与えられている。
例えば、図10に示されるように、カテゴリ「ビール」に対する印象表現語「コクのある」には、主観的類似性要素「コク」の相対値が3、主観的類似性要素「キレ」の相対値が0、…という印象データが与えられている。
【0044】
図11は、主観的類似性要素を座標軸とする座標空間と、この座標空間に布置された各印象表現語に対する印象データを例示したものである。この図11では、ビールの座標空間を、コク、キレ、うまみの主観的類似性要素3要素を座標軸として表現し、印象表現語「クリーミーな」「まろやかな」「ドライな」に対する印象データを布置したものである。
この図11に示されるように、各印象表現語は、そのカテゴリに属するイメージ情報に対して抽出される主観的類似性要素を座標軸とし、各座標値を要素とする印象データ(ベクトル)で表現される。
【0045】
なお、図10に例示されるように、実際の印象表現語は、各主観的類似性要素の相対値を示す座標値の他に、印象表現語に含まれる範囲を示す範囲データが付属している。従って印象表現語は、各主観的類似性要素の座標値を中心とする範囲(座標値を中心とする一定の範囲)で囲まれる印象データ空間で指定されるようになっている。
図12は、印象表現語の印象データ空間を2次元の座標で表したものである。
この図12に例示されるように、例えば、カテゴリ「ビール」の印象表現語「クリーミーな」は、主観的類似性要素「コク」に対して座標値4を中心とするプラスマイナス2の範囲、すなわち2〜6の範囲で指定され、また、主観的類似性要素「キレ」に対して座標値−2を中心としてプラスマイナス2の範囲、すなわち−4〜0の範囲で指定される。
このように、印象表現語の印象データは各座標軸(主観的類似性要素)に対して一定の範囲を有することで、座標空間上の点で表されるのではなく、座標空間上の一定空間(容積)で表すことができ、この印象表現語の印象データ空間内に含まれるイメージ情報を検索候補のイメージ情報としてリストアップすることができる。このように印象表現語の印象データ空間内のイメージ情報をリストアップすることで、全イメージ情報に対する印象データとの類似度を判断する必要がなくなり、リストアップしたイメージ情報に対する印象データとの類似性を判断すればよく、判断を高速化することができる。
【0046】
主観評価情報辞書5には、検索対象に関するデータが格納されており、各イメージ情報に対する印象データと付属情報が、カテゴリ毎に分類され格納されている。主観評価情報辞書5におけるカテゴリは、主観評価表現辞書4におけるカテゴリと同一であり、同一カテゴリの範囲で検索が行われるようになっている。
図13は主観評価情報辞書5の内容を概念的に表したものである。
この図13に例示されるように、各イメージ情報に対する印象データは、印象表現語に対する印象データと同様に、共通の主観的類似性要素からなる座標軸上の値を要素とするベクトルで表現される。すなわち、イメージ情報「アサヒスーパードライ」の印象データは、主観的類似性要素「コク」「キレ」「うまみ」…の各座標値を要素としてベクトル(3,4,2,3.5,3.5,…)で表現される。
同様に、「アサヒ黒生」「アサヒファーストレディー」「アサヒスーパープレミアム」「アサヒ生ビールダンク」(いずれも、アサヒビール株式会社の登録商標又は商標)、「キリンラガービール」「キリン一番絞り〈生〉ビール」「キリン一番絞り 黒生ビール」「キリンビール工場 〈生〉」「キリンブラウマイスター」(いずれも麟麟麦酒株式会社の登録商標又は商標)も、各主観的類似性要素の値を要素とするベクトルで表現される。
なお、イメージ情報に対する印象データの各座標値には、印象表現語の場合と異なり、範囲データが付属していない。
従って、主観的類似性要素を座標軸とする多次元座標空間にイメージ情報が布置されており、座標空間のなかである幅を持った領域(印象データ空間)を指定することで、その印象データ空間内に布置されているイメージ情報を検索(リストアップ)することができる。
一方、付属情報としては、数値データ等の客観的特徴条件、対象の画像データ、説明文等のテキストデータが各イメージ情報毎に格納されている。付属情報には、その他イメージ情報を印象する要因となる各種データが様々なかたちで関連情報として格納される。
【0047】
付属情報として主観評価情報辞書5に格納される客観的特徴条件は、イメージ情報の物理的な特徴データを意味し、定量的で計測可能な数値データのことをいう。また、イメージ情報をその性質・用途などによって分類したカテゴリ情報も客観的特徴条件に該当する。
例えば、画像をイメージ情報とした場合、色・形などが該当し、乗用車をイメージ情報とした場合、排気量、燃費、重量などが該当する。
客観的特徴条件は、イメージ情報の検索の際に、制約条件としてイメージ情報を絞り込むために使用される。
【0048】
イメージ情報を印象する要因となる各種データとしては、人名や商品名等で、それ自体がある種の強い印象を持っているもや、画像の構成要素であるプリミティブな図形の印象データ等が該当する。例えば映画作品をイメージ情報とする場合、作品自体の印象よりも主演俳優の印象がより支配的であることがあり、このような場合に、映作品の解説文から抽出された印象表現語や、シーン画像から推定された印象データよりも、主演俳優等に付与された印象データを引用して、作品の印象データを生成する方が主観的な類似性をより反映したものとなる場合があるため、主演俳優名等が付属情報として格納される。
【0049】
また図10及び図13に示されるように、主観評価表現辞書4及び主観評価情報辞書には、各カテゴリに含まれる名詞等のカテゴリ分類情報が格納されている。例えば、カテゴリ「ビール」を判断するためのカテゴリ分類情報として「ビール」が格納され、カテゴリ「ワイン」のカテゴリ分類情報として「ワイン」が格納されている。各カテゴリを示す名詞そのものがカテゴリ分類情報として格納される他、例えば、カテゴリ「ワイン」に対して「ボルドー」や「ボージョレ・ヌーボー」等の関連語や、「(ぶどう+ブドウ+葡萄)×醸造」といった条件式等もカテゴリ分類語として格納されている。他のカテゴリに対しても関連語や条件式がカテゴリ分類情報として格納されている。
このように、カテゴリ分類情報が主観評価表現辞書4に格納することで、検索処理、イメージ情報追加処理、印象表現語追加処理において、一致する(又は条件式を満たす)名詞等がテキストデータ中に含まれる場合に、対応するカテゴリに自動的に分類することができる。
【0050】
イメージ情報検索手段6(図9)は、検索印象データ生成手段で生成された検索印象データ(主観的類似性要素のレベル値のセット)と客観的特徴条件を検索キーとして、主観評価情報辞書5に格納されている各種イメージ情報を検索する。
すなわち、主観評価情報辞書5に登録されているイメージ情報を客観的な特徴条件を制約条件として絞り込んで、その中でレベル値セットの示す範囲にあるイメージ情報を抽出し、レベル値とイメージ情報の印象データの類似性判断を行い、より類似性の高いイメージ情報順に検索結果として出力するようになっている。
【0051】
出力手段7は、イメージ情報検索手段6で検索された検索結果を出力する。出力手段7による検索結果の出力は、検索されたイメージ情報を表示装置に出力し、印刷装置に印刷出力することにより行われる。
【0052】
イメージ情報追加手段8は、新たなイメージ情報に対して、その印象データを生成し付属情報と共に主観評価情報辞書5に格納する。新たなイメージ情報の印象データは、そのイメージ情報に付属するテキストデータから、主観評価表現辞書4に格納されている印象表現語を抽出し、その印象表現語の印象データを使用して生成する。また。主観評価情報辞書5に登録されているイメージ情報の客観的特徴条件と、新たなイメージ情報に対する客観的特徴条件とから、既登録イメージ情報の印象データを生成するようになっている。
このように、イメージ情報追加手段8により、テキストデータや客観的特徴条件からイメージ情報を新たに追加できるので、主観評価情報辞書を容易に充実させることができる。
【0053】
印象表現語追加手段9は、未登録の印象表現語について、その印象データを生成して主観評価表現辞書4に追加登録する。印象表現語追加手段9による新たな印象表現語の追加は、イメージ情報の検索の際に入力された自然言語による文章中や、イメージ情報追加手段8において未登録の印象表現語がイメージ情報に対するテキストデータ中に未登録の印象表現語が存在した場合に行われるようになっている。
このように、印象表現語追加手段9により自動的に新たな印象表現語が主観評価表現辞書4に登録されるので、データ検索装置が使用されればされるほど充実した主観評価表現辞書4になる。特に、ユーザのイメージ情報に対する感じ方や感性、更にそれを表現した文章も多種多様であるため、検索過程で新たな印象表現語を収集し追加することで、より多くのユーザの感性や表現に対応可能な主観評価表現辞書4とすることができる。
【0054】
ところで、以上に説明した本出願人に係る特願平11−28101(未公開)のデータ検索装置の主観評価表現辞書4、主観評価情報辞書5は、印象表現語と名詞句がセットとして記憶されていないので、評価視点が定まらないという問題があった。即ち、例えば、ユーザが「広い部屋」などと検索文章を作成して検索すると、評価視点が定まらないために、「広いエントランス」や「広いバスルーム」などの情報もヒットしてしまう。
そこで、第2の実施の形態では、主観的類似要素を印象表現語と名詞句のセットを用いて生成することにした。
【0055】
特願平11−28101のデータ検索装置(以下前回のデータ検索装置)の主観評価表現辞書4(以下単に表現辞書4と記す)は、例えば、ビールに対して、うまみのある、キレのある、コクのある、クリーミーな、なの印象表現語に対して印象データが設定されていたが、第2の実施の形態の表現辞書4は、図16に示したように、例えば、印象表現語「広い」に対しては、「部屋が広い」、「バスルームが広い」などと、印象表現語と名詞句のセットが印象データを有している。即ち、主観的類似要素が印象表現語と名詞句のセットによって構成されている。また、「広いバスルーム」などの印象表現語と名詞句のセットは主観的特徴要素であるが、値が5±3の範囲をとる。これは、前回のデータ検索装置の表現辞書4で、主観的特徴要素で「コク」が3±2の範囲を持っていたものに対応するものである。
【0056】
一方、前回のデータ検索装置における主観評価情報辞書(以下単に情報辞書5と記す)は、各イメージ情報ごとに作成された主観的類似性要素は、例えば、「コク」、「キレ」、「うまみ」などの印象表現語に対して印象データが作成されている。一方、第2の実施の形態に情報辞書5は、図17に示したように、主観的類似性要素が「バスルームが広い」、「部屋が広い」などと印象表現語と名詞句のセットに対して印象データが作成されている。
このように、第2の実施の形態では、例えば「部屋が広い」、「バスルームが広い」といった評価視点を持った主観的類似性要素によってベクトル空間を構成することができる。
つまり、図11の例を用いると表現辞書5では、、「まろやかな」、「コク」、「ドライな」という主観的類似性要素によって空間が張られているが、第2の実施の形態では、更に評価視点を明確にして、「まろやかなにおい」、「まろやかな味」、「コクのある味」、…などの印象表現語と名詞句のセットによって空間が張られることになる。
【0057】
このように、前回のデータ検索装置では、単に「広い」など評価視点を定めずに、主観的類似性要素を定めていたが、第2の実施の形態では、更に評価視点を明らかにして「バスルームが広い」、「部屋が広い」などのように、印象表現語と名詞句をセットにして主観的類似性要素を構成したため、検索の精度を高めることができる。
即ち、ユーザが「広い部屋のホテル」と検索要求文章を作成した場合、主観的類似性要素の「部屋がひろい」の成分が5±3の値を持つ(統合した値)イメージ情報はヒットするが、これに該当せず、「バスルームが広い」の成分が5±3のイメージ情報はヒットしない。
【0058】
図15は、以上のように構成されたデータ検索装置に、第1の実施の形態で説明した主観的特徴要素生成システム34(図2)を組み込んだところを示した図である。各モジュールは、主観的特徴要素生成手段49に含まれている。
主観的特徴要素生成システム34は、主観的評価表現辞書4に接続され、主観的特徴要素生成システム34によって生成された主観的特徴要素は印象表現語と名詞句のセットとして、主観評価表現辞書4に登録される。
このように第2の実施の形態では、前回のデータ検索装置の主観的類似性要素を印象表現語から構成されていたものを印象表現語と名詞句のセットにしてある。その他の検索の原理などは、前回のデータ検索装置と同じである。
【0059】
第2の実施の形態では、主観的特徴要素生成システム34を用い、また、主観的表現辞書と主観的評価情報辞書を印象表現語と評価視点のセットにて座標値を生成することにより、印象表現語を評価視点用いたイメージ情報検索を行うことができる。
また、従来は、実験などによって作成していた主観的表現辞書のデータをイメージデータ付属文書データを用いて自動生成することができる。
なお、本実施形態として、複数の文書をマージした頻度抽出用文書と、前記頻度抽出用文書から印象表現語と前記印象表現語と結びついた名詞句をセットにして抽出する抽出手段と、前記抽出手段にて抽出された前記印象表現語と前記名詞句を前記複数の文書とマッチングしてマッチした頻度を取得するマッチング頻度取得手段と、前記印象表現語と前記名詞句のセットを、前記マッチング頻度取得手段にて取得した頻度を分析データとして主成分分析を行う主成分分析手段と、前記主成分分析手段にて分析された各前記印象表現語と前記名詞句のセットの主成分負荷量を用いて主観的特徴要素を決定する決定手段と、を具備したことを特徴とする主観的特徴要素生成装置を提供する(第1の構成)ようにしてもい。
また、第1の構成の前記マッチング頻度取得手段は、前記抽出手段にて抽出された前記印象表現語と前記名詞句のセットのうち、前記頻度抽出用文書に現れる頻度が大きいものをマッチングするように構成することができる(第2の構成)。
更に、第1の構成又は第2の構成は、前記抽出手段にて抽出された前記印象表現語と前記名詞句のセットの表記を統制する統制手段を更に備え、前記統制手段は前記マッチング手段がマッチングを行う前に、前記印象表現語と前記名詞句のセットの表記を統制するように構成することができる(第3の構成)。
また、第3の構成の前記統制手段は、前記印象表現語の活用形を終止形に統制する活用形統制手段、又は、前記印象表現語の表記揺れを統制する表記揺れ統制手段、又は、前記名詞句を上位語又は同義語に統制するシソーラス統制手段のうち少なくとも1つによって統制するように構成することができる(第4の構成)。
更に、第1の構成から第4の構成までの何れかの1の構成は、主観的類似性要素を座標軸とする座標空間に検索キーとなる印象表現語に対する印象データが付置された主観評価表現辞書を備えたイメージ情報検索手段を更に備え、
前記イメージ検索手段は、前記決定手段から前記決定手段にて決定された主観的特徴要素を取得するように構成することができる(第5の構成)。
また、本実施形態は、前記目的を達成するために、複数の文書をマージした頻度抽出用文書を取得する第1のステップと、前記第1のステップにて取得した前記頻度抽出用文書から印象表現語と前記印象表現語と結びついた名詞句をセットにして抽出する第2のステップと、前記第2のステップにて抽出された前記印象表現語と前記名詞句を前記複数の文書とマッチングしてマッチした頻度を取得する第3のステップと、前記第2のステップにて抽出した前記印象表現語と前記名詞句のセットを、前記マッチング頻度取得手段にて取得した頻度を分析データとして主成分分析を行う第4のステップと、前記第4のステップにて分析された各前記印象表現語と前記名詞句のセットの主成分負荷量を用いて主観的特徴要素を決定する第5のステップと、から構成されたことを特徴とする主観的特徴要素生成方法を提供してもよい。
更に、本実施形態は、前記目的を達成するために複数の文書をマージした頻度抽出用文書から印象表現語と前記印象表現語と結びついた名詞句をセットにして抽出する抽出機能と、前記抽出機能にて抽出された前記印象表現語と前記名詞句を前記複数の文書とマッチングしてマッチした頻度を取得するマッチング頻度取得機能と、前記印象表現語と前記名詞句のセットを、前記マッチング頻度取得機能にて取得した頻度を分析データとして主成分分析を行う主成分分析機能と、前記主成分分析機能にて分析された各前記印象表現語と前記名詞句のセットの主成分負荷量を用いて主観的特徴要素を決定する決定機能と、をコンピュータに実現させるための主観的特徴要素生成プログラム又は、主観的特徴要素生成プログラムを記憶したコンピュータが読み取り可能な記憶媒体を提供してもよい。
【0060】
【発明の効果】
本発明によれば、効率的に主観的特徴要素を生成することのできる主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラムを提供することができる。
【図面の簡単な説明】
【図1】第1の実施の形態に係る主観的特徴要素生成装置の構成を示した図である
【図2】主観的特徴要素生成システムの構成を示したブロック図である。
【図3】セットデータ生成モジュールの働きを説明するための図である。
【図4】活用形統制モジュールと表記揺れ統制モジュールの働きを説明するための図である。
【図5】名詞句統制モジュールの働きを説明するための図である。
【図6】主観的特徴要素生成モジュールの働きを説明するための図である。
【図7】印象表現語と名詞句のセットにて生成された主観的特徴要素を用いた辞書を使用した場合のイメージ検索の概念を示した図である。
【図8】主観的特徴要素生成システムを用いて、主観的特徴要素を決定する場合の手順を示したフローチャートである。
【図9】主観的特徴要素生成システムを組み込む元となるデータ検索装置の構成を示したブロック図である。
【図10】同上、データ検索装置における主観的評価表現辞書の内容を概念的に表わしたものである。
【図11】同上、データ検索装置における主観的類似性要素を座標軸とする座標空間と、この座標空間に各印象表現語に対する印象データが布置された概念状態間を例示した説明図である。
【図12】同上、データ検索装置における印象表現語の印象データ空間を2次元の座標で表わした説明図である。
【図13】同上、データ検索装置における主観評価情報辞書の内容を概念的に表わしたものである。
【図14】同上、データ検索装置における主観的類似性要素を座標軸とする座標空間と、この座標空間に各イメージ情報に対する印象データが布置された概念状態を例示した説明図である。
【図15】同上、データ検索装置に主観的特徴要素生成システムを組み込んだ状態を示したブロック図である。
【図16】主観評価表現辞書の拡張例を示した図である。
【図17】主観評価情報辞書の拡張例を示した図である。
【図18】従来例1を説明するための図である。
【図19】従来例2を説明するための図である。
【図20】従来例3を説明するための図である。
【符号の説明】
1 入力手段
2 検索条件文取得手段
3 検索印象データ生成手段
4 主観的評価表現辞書
5 主観的評価情報辞書
6 イメージ情報検索手段
7 出力手段
8 イメージ情報追加手段
9 印象表現語追加手段
11 主観的特徴要素生成装置
12 中央制御部
13 CPU
14 ROM
15 RAM
16 入出力部
17 モデム
18 記憶装置
19 プログラム部
20 データ部
21 バスライン
23 印象表現抽出用コーパス
24 表記揺れ統制辞書
25 シソーラス辞書
26 セットデータ生成モジュール
27 活用形統制モジュール
28 表記揺れ統制モジュール
29 名詞句統制モジュール
30 重複頻度算出モジュール
31 主観的特徴要素決定モジュール
32 主観評価表現辞書
33 イメージ情報検索システム
34 主観的特徴要素生成システム
35 コーパスデータ
36 印象表現語評価視点セットデータ
37 活用形統制データ
38 表記揺れ統制データ
39 名詞句統制データ
41 マッチングデータ
42 主成分負荷量データ
43 主観的特徴要素データ
45 クエリー
46 検索キー
47 イメージ情報付属文書データベース
48 検索データ
49 主観的特徴要素生成手段

Claims (5)

  1. 複数の文書をマージした頻度抽出用文書と、
    前記頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する抽出手段と、
    前記抽出手段が抽出した前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する頻出度データ出力手段と、
    前記頻出度データ出力手段が出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のそれぞれ、をマッチングし、マッチした頻度をマッチングデータとして取得するマッチング頻度取得手段と、
    前記複数の文書と、前記マッチング頻度取得手段にて取得したマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する主成分負荷量生成手段と、
    前記主成分負荷量生成手段が生成した主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する主観的特徴要素データ出力手段と、
    を具備したことを特徴とする主観的特徴要素生成装置。
  2. 前記抽出手段にて抽出された前記印象表現語と前記名詞句のセットの表記を統制する統制手段を更に備え、
    前記統制手段は前記マッチング頻度取得手段がマッチングを行う前に、前記印象表現語と前記名詞句のセットの表記を統制することを特徴とする請求項1に記載の主観的特徴要素生成装置
  3. 前記統制手段は、前記印象表現語の活用形を終止形に統制する活用形統制手段、又は、前記印象表現語の表記揺れを統制する表記揺れ統制手段、又は、前記名詞句を上位語又は同義語に統制するシソーラス統制手段のうち少なくとも1つによって統制することを特徴とする請求項に記載の主観的特徴要素生成装置。
  4. 頻度抽出用文書取得手段と、抽出手段と、頻出度データ出力手段と、マッチング頻度取得手段と、主成分負荷量生成手段と、主観的特徴要素データ出力手段と、を備える主観的特徴要素生成装置を用いた主観的特徴要素生成方法であって、
    前記頻度抽出用文書取得手段が、複数の文書をマージした頻度抽出用文書を取得する第1のステップと、
    前記抽出手段が、前記第1のステップにて取得した前記頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する第2のステップと、
    前記頻出度データ出力手段が、前記第2のステップにて抽出された前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する第3のステップと、
    前記マッチング頻度取得手段が、前記第のステップにて出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のそれぞれと、をマッチングし、マッチした頻度をマッチングデータとして取得する第4のステップと、
    前記主成分負荷量生成手段が、前記複数の文書と、前記第4のステップにて取得されたマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する第5のステップと、
    前記主観的特徴要素データ出力手段が、前記第5ステップにて生成された主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する第6ステップと、
    を有することを特徴とする主観的特徴要素生成方法。
  5. 複数の文書をマージした頻度抽出用文書から、直感的な印象を表現する形容詞、形容詞句、形容動詞を印象表現語とし、前記印象表現語と結びついた名詞句をセットにして抽出する抽出機能と、
    前記抽出機能が抽出した前記印象表現語と前記名詞句のセットのうち、抽出の重複頻度が高い印象表現語と名詞句のセットを頻出度データとして出力する頻出度データ出力機能と、
    前記頻出度データ出力機能が出力した前記抽出の重複頻度が高い印象表現語と名詞句のセットと、前記複数の文書のそれぞれ、をマッチングし、マッチした頻度をマッチングデータとして取得するマッチング頻度取得機能と、
    前記複数の文書と、前記マッチング頻度取得機能にて取得したマッチングデータと、を分析データとして主成分分析を行い、前記抽出の重複頻度が高い印象表現語と名詞句のセット各々の主成分負荷量を主成分ごとに生成する主成分負荷量生成機能と、
    前記主成分負荷量生成機能が生成した主成分ごとの主成分負荷量の値が大きい順に、所定の数の前記抽出の重複頻度が高い印象表現語と名詞句のセットを主成分ごとに取得して主観的特徴要素として出力する主観的特徴要素データ出力機能と、
    をコンピュータに実現させるための主観的特徴要素生成プログラム。
JP2001138002A 2001-03-30 2001-03-30 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム Expired - Fee Related JP4712221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001138002A JP4712221B2 (ja) 2001-03-30 2001-03-30 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001138002A JP4712221B2 (ja) 2001-03-30 2001-03-30 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム

Publications (2)

Publication Number Publication Date
JP2002297659A JP2002297659A (ja) 2002-10-11
JP4712221B2 true JP4712221B2 (ja) 2011-06-29

Family

ID=18985010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001138002A Expired - Fee Related JP4712221B2 (ja) 2001-03-30 2001-03-30 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム

Country Status (1)

Country Link
JP (1) JP4712221B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070250319A1 (en) * 2006-04-11 2007-10-25 Denso Corporation Song feature quantity computation device and song retrieval system
JP6457153B2 (ja) * 2016-08-09 2019-01-23 楽天株式会社 キーワード抽出システム、キーワード抽出方法およびプログラム
CN113366521A (zh) 2019-02-05 2021-09-07 索尼集团公司 感性计算设备、感性计算方法和程序
JP2021068065A (ja) 2019-10-18 2021-04-30 富士ゼロックス株式会社 クエリ生成システム、検索システム及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082067A (ja) * 1998-09-07 2000-03-21 Fuji Xerox Co Ltd 文書検索装置および文書検索方法
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082067A (ja) * 1998-09-07 2000-03-21 Fuji Xerox Co Ltd 文書検索装置および文書検索方法
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体

Also Published As

Publication number Publication date
JP2002297659A (ja) 2002-10-11

Similar Documents

Publication Publication Date Title
CN107357889B (zh) 一种基于内容或情感相似性的跨社交平台图片推荐算法
US7930302B2 (en) Method and system for analyzing user-generated content
JP5531443B2 (ja) 情報処理装置および方法、並びにプログラム
CN109271518B (zh) 用于对微博信息进行分类显示的方法和设备
JP6381775B2 (ja) 情報処理システム及び情報処理方法
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
Strohmaier et al. Acquiring knowledge about human goals from search query logs
JP2008287517A (ja) 強調表示装置及びプログラム
WO2016114790A1 (en) Reading difficulty level based resource recommendation
CN112133406B (zh) 基于情感图谱的多模态情感引导方法和系统、存储介质
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
KR101074820B1 (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
JP3408998B2 (ja) データ検索装置、及びデータ検索用プログラムが記憶された記憶媒体
Papenmeier et al. 'A Modern Up-To-Date Laptop'-Vagueness in Natural Language Queries for Product Search
JP4712221B2 (ja) 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP4129132B2 (ja) 検索結果提示装置、検索結果提示方法、及び検索結果提示プログラム
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
JP3787318B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
JP4213900B2 (ja) 文書分類装置と記録媒体
JP2021131769A (ja) 要約生成プログラム、要約生成装置および要約生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080229

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110323

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees