JP2007012039A - 検索システムおよびコンピュータプログラム - Google Patents

検索システムおよびコンピュータプログラム Download PDF

Info

Publication number
JP2007012039A
JP2007012039A JP2006147956A JP2006147956A JP2007012039A JP 2007012039 A JP2007012039 A JP 2007012039A JP 2006147956 A JP2006147956 A JP 2006147956A JP 2006147956 A JP2006147956 A JP 2006147956A JP 2007012039 A JP2007012039 A JP 2007012039A
Authority
JP
Japan
Prior art keywords
search
data
concept
user
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006147956A
Other languages
English (en)
Inventor
Takuma Tsukamoto
琢磨 塚本
Michitoshi Sakagami
道年 坂上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Itochu Techno Solutions Corp
Original Assignee
Itochu Techno Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Itochu Techno Solutions Corp filed Critical Itochu Techno Solutions Corp
Priority to JP2006147956A priority Critical patent/JP2007012039A/ja
Publication of JP2007012039A publication Critical patent/JP2007012039A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】 最初の検索条件設定をユーザのイメージに近づけて提供し、検索結果に基づいた次の検索条件設定を簡易化できる検索技術を提供する。
【解決手段】 検索テーマを表すセンターキーワードとそれに関するコンセプトを決定する一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力させる検索フォーマットをユーザに提供し、その検索フォーマットに入力された検索用データを受信し、検索用データにおける一次パラメータに関してセンターキーワードとのアンド条件にて一次検索して複数の一次検索結果を出す。その一次検索結果に対して制限事項を用いたフィルタリング処理することで二次パラメータを作成する。センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出し、算出された概念距離をトポロジーグラフとして表示可能なトポロジーグラフ出力データとする。
【選択図】 図12

Description

本発明は、データ検索手法において、検索のための入力も検索結果の出力も多次元的に表示可能で、多様な検索が可能となる技術である。
インターネットなど、ネットワークを介してあるサイトから情報収集をする場合、キーワードを用いて「and」、「or」による検索手法が一般的に提供されている。そうした検索手法では、キーワードとヒット件数とを照らし合わせながら、キーワードを追加したり、「or」条件を加えたりしながら繰り返すのが普通である。
その他、条件を絞るために予めカテゴライズされた分類からキーワード検索を行うカテゴリ検索、検索結果を階層化して出力するカテゴリ検索などを組み合わせることで、検索に要する時間や回数を減らすことも可能である。
また、特許文献1には、「検索漏れと不要なレコードの混入を抑えた検索集合の作成を短時間で容易に行う」ことを目的とした技術が開示されている。
特開平9−81547号公報
この技術は、検索条件の追加によって絞り込みすぎた場合の不具合を解消することを目的としている。すなわち、所定のデータベース内の検索において、検索集合の作成ステップ、検索集合に含まれる複数レコードの中の表示項目に対応する項目要素を特定するステップ、任意の2つのレコードの相違を数値化して算出するステップ、その数値に対応した距離をプロットするステップを備える。そして、距離で表した相違を多次元的に表示することによって視覚化し、ユーザが視認によって関連性の高いレコードを残すことで、絞り込みを解消し、検索効率を上げようというものである。
従来の検索技術では、漠然としている検索を行う際に、以下のような問題点があった。たとえば、「ダイビングとホテル滞在をメインにしたハワイ旅行を計画したい。」といった場合を例題として想定する。
この例題では、旅行代理店における企画ツアーを探していく第一の手法、ハワイ旅行に関する情報収集、ハワイ近辺でのダイビングスポットに関する情報収集、ハワイのホテルについての情報収集を個別に繰り返していく第二の手法が一般的である。
第一の手法では、旅行代理店を跨いでの検索が困難である。すなわち、代理店Aのxプランと代理店Bのyプランとを一度に出力させて比較するということは難しい。
第二の手法では、プランニングまでの情報収集に検索回数と手間が掛かる。すなわち、これまでのキーワード検索では、最初の言葉がメインの言葉であるものの、二番目以後の言葉は並列である。このため、ユーザはメインの言葉を中心とするものの、ツリー化されている言葉を入れ替えたり、追加(and条件)したりしながら試行錯誤をせざるを得ない。第一、第二いずれの手法も、ユーザが各回の検索結果を把握しながら、次の検索条件を組み立てるという作業を繰り返す必要がある。
例題で言えば、「ハワイ旅行」がメインの言葉であり、「ダイビング」と「ホテル滞在」とは補助的な言葉である。しかし、「ダイビング」と「ホテル滞在」とでは、どちらかに重みがあったり、何となくイメージのできているダイビングスポットやホテルのランクがあったりする。その場合、ダイビングが第二のメインでホテルが補助、といったイメージがユーザの頭の中に出来上がっている。すなわち、検索を行おうとするユーザが検索のテーマとしているメインの言葉と限定するための補助の言葉とは、ユーザの頭の中において階層化またはツリー化されてイメージされていることが多い。
また、ユーザとしても、メインやサブ(補助)の言葉やその位置づけを、はっきりと言葉やイメージにできていない状態から検索作業に入ることも多い。
そうした検索前のユーザのイメージを具現化する、あるいはその補助をするツール、検索用フォーマットは存在していない。それゆえに、最初の検索から効率化することはできず、前述した二つの手法のいずれかを用いて検索を繰り返し実行するしかなかった。
近年、短い文章を入力することで検索を実行できる「概念検索」が導入されつつあるが、限られた分野や限られたデータ群を対象としている。したがって、インターネットのように開放された検索対象に対して採用することができる技術ではない。
特開平9−81547号公報に記載された技術についても、同様の問題点がある。すなわち、所定のコンピュータに予め格納されたデータベース内で実現可能な技術であり、インターネットのように開放された検索対象に対して採用することができる技術ではない。
本願発明が解決しようとする課題は、上述したような問題点に対して解決の道を模索し、要求要望に応えようというものである。すなわち、最初の検索条件設定をユーザのイメージに近づけて提供するとともに、検索結果に基づいた次の検索条件設定を簡易化できる検索技術を提供することにある。
請求項1および請求項4に記載の発明の目的は、最初の検索条件設定をユーザのイメージに近づけて提供できる検索技術を提供することにある。
請求項2に記載の発明の目的は、更に、検索結果に基づいた次の検索条件設定を簡易化できる検索技術を提供することにある。
請求項3に記載の発明の目的は、更に、ユーザの利便性を高める検索技術を提供することにある。
請求項4および請求項5に記載の発明の目的は、最初の検索条件設定をユーザのイメージに近づけて提供できる検索技術を実行可能なコンピュータプログラムを提供することにある。
(請求項1)
請求項1に記載の発明は、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手段と、そのフォーマット提供手段によって提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手段と、受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手段と、その一次検索手段による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手段と、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手段と、その概念算出手段によって算出された概念距離を所定範囲のトポロジーグラフとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手段と、そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手段とを備えた検索システムに係る。
(用語説明)
ユーザに係るコンピュータと検索処理を行うサーバとは、ネットワーク(たとえばインターネット)を介して接続されている。
前記の「フィルタリング処理」には、人工知能の分野に用いられる推論を用いる。たとえば、「否定演算」のようにセンターキーワードや制限事項からユーザが必要とすることがあり得ないと想定される集合を外してしまう処理や、「定言命題」を用いることによってセンターキーワードや制限事項から推論してユーザが不要とすると想定される集合を外してしまう処理である。
なお、二次パラメータの下位概念が存在する場合には、そのパラメータを三次パラメータとし、その作成手段を三次パラメータ作成手段とする。
「制限事項」とは、検索対象とするデータベースをカテゴリやキーワードなどで制限するための条件、トポロジーグラフとして表示されるパラメータの総数などである。
前記の「概念距離算出手段」は、たとえば、以下のような演算を行って算出する。「概念距離」とは二つのデータが属する概念同士の関連性を定量化したものであり、これを求めるために、まず、シソーラスを集めたデータベース(以降「概念辞書」とも称する。)を用いて、センターキーワードや制限事項に用いられた言葉を多次元のベクトルとする。そして、概念距離を算出したい二つの言葉それぞれの多次元ベクトルの内積を算出し、この内積、またはこの内積に基づいて算出する。なお、算出された積は、完全一致であれば1.0であり、概念距離はゼロである。
前記の「トポロジーグラフ化手段」とは、センターキーワードを中心としたいわゆる放射状のマップ構造(トポロジーグラフ)での出力を可能とするための演算手段である。たとえば、センターキーワードを真中心に位置すると全体が偏ってしまうような場合にセンターキーワードの位置を中心からずらしたり、単純に二次元的な表示をすると重なってしまって見にくくなるような場合に全体のレイアウトを調整したりするような演算も含む。
(作用)
フォーマット提供手段が、ユーザに係るコンピュータに対して検索用フォーマットを提供する。その検索用フォーマットを提供されたユーザは、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力する。
検索用フォーマットを用いて入力した検索用データを送信すると、検索用データ受信手段が検索用データを受信する。そして、受信した検索用データにおける一次パラメータに関して、一次検索手段が所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す。その一次検索手段による一次検索結果に対して、二次パラメータ作成手段が前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する。
続いて、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を概念距離算出手段が算出する。その概念算出手段によって算出された概念距離を、トポロジーグラフ化手段が所定範囲のトポロジーグラフデータとして表示可能なトポロジーグラフ出力データとする。算出されたトポロジーグラフ出力データを返信手段がユーザに返信する。
以上により、ユーザとしては、センターキーワードとそのセンターキーワードに関するコンセプトとによる検索条件を設定できるので、キーワード検索、カテゴリ検索、ディレクトリ検索などでは困難な、多種多彩な検索条件の設定が可能となる。このため、最初の検索条件設定をユーザのイメージに近づけて提供できる。ユーザにおいて検索条件に関する情報整理や検索イメージができていなかった場合にも、情報の整理や検索イメージ形成の補助となる。
また、検索結果もトポロジーグラフとして表記されており、しかも二次パラメータが距離を用いて表現されているので、直感的に理解しやすい。連続して、あるいは追加の検索を実行させる場合にも、情報が整理されているので、次の検索が行いやすい。
(請求項2)
請求項2に記載の発明は、請求項1に記載の検索システムを限定したものである。
すなわち、ユーザのコンピュータに送信したトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザのコンピュータ操作によって概念距離の変更操作を可能としており、前記の検索用データ受信手段は、そのトポロジーグラフ出力データに基づいてユーザによって概念距離を操作されて新たに創作された検索用新データを受信し、前記の一次検索手段は、その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出し、前記の返信手段は、検索用新データに基づく一次検索結果、二次パラメータから算出されたトポロジーグラフ出力データをユーザに返信することとした検索システムに係る。
(用語説明)
トポロジーグラフ出力データの二次パラメータにつき「変更操作を可能」とするとは、ユーザによるポインタやクリックボタン等を使って変更可能なデータである。
また、上記「変更操作」により変更された「概念距離」とは、概念辞書に基づいて決定される「概念距離」よりも広義であり、変更操作を行ったユーザの志向を反映した距離である。
(作用)
ユーザに返信されたトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザの操作によって、ユーザの興味や志向に応じての概念距離の変更操作が可能である。したがって、その操作によって重視したい二次パラメータを一次パラメータに近づけたり、重要でない二次パラメータを遠ざけたりする。(距離を無限大とするのが「削除」である。)そうして新たに創作された検索用新データを送信する。
前記の検索用データ受信手段は、その検索用新データを受信する。そして、一次検索手段は、その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出す。
その一次検索結果に対しては、以下の手順を踏む。
二次パラメータ作成手段が制限事項を用いたフィルタリング処理することで三次パラメータを作成する。このとき、ユーザにより変更されたセンターキーワードと一次パラメータとの間の概念距離、すなわち興味や志向の程度、に応じてフィルタリングのレベルが変更される。このため、概念距離が短い一次パラメータには多数の要素が二次パラメータとして選択されるが、概念距離が長い一次パラメータには少数の要素しか二次パラメータとして選択されない。このようにして、ユーザの興味や志向に応じて情報量が変動することになる。
続いて、センターキーワード並びに一次パラメータおよび二次パラメータとで形成される概念と、これに連結されるべき新たな各三次パラメータによる概念との概念距離を概念距離算出手段が算出する。その概念算出手段によって算出された概念距離を、トポロジーグラフ化手段が所定範囲のトポロジーグラフデータとして表示可能なトポロジーグラフ出力データとし、返信手段がユーザに返信する。
以上の作用から、ユーザとしては、最初に検索結果として受け取ったトポロジーグラフ出力データを土台にして、自らの感覚で概念距離を変更し、自らの興味や志向を強く反映させた検索を行える。
なお、返信手段は、検索用新データに基づく第二のトポロジーグラフ出力データを第一案のトポロジーグラフ出力データとともに出力することとしてもよい。ここで、「第一案」とは、第二のトポロジーグラフ出力データの前に出力されたトポロジーグラフ出力データのことである。
この場合には、返信手段がユーザに対して、検索用新データに基づく第二のトポロジーグラフ出力データを第一案のトポロジーグラフ出力データとともに出力するので、ユーザは比較を簡単に行うことが実現される。
(請求項3)
請求項3に記載の発明は、請求項1または2に記載の検索システムを限定したものである。
すなわち、予め、出力結果として使えるサンプルデータを蓄積したサンプルデータベースを備え、そのサンプルデータベースは、テーマ毎に分類されており、概念距離算出手段は、検索用データ受信手段が受信した検索用データについて、センターキーワードおよび一次パラメータを用いて、サンプルデータベースの中から類似性の高いサンプルを抽出するための比較演算をして最も類似しているサンプルを抽出し、返信手段は、最も類似しているサンプルをユーザに返信することとした検索システムに係る。
(用語説明)
サンプルデータベース(データベースは「DB」と略記する)は、テーマ(旅行、経営情報など)ごとに分けられている。各テーマが更に細分化されていても良い。たとえば、「旅行」のテーマが、海外旅行、国内温泉旅行、国内スキー旅行などである。
なお、サンプル抽出は、二次パラメータ作成手段を用いて比較演算することで抽出することとしても良い。
(作用)
サンプルDBには、予め、出力結果として使えるサンプルデータを蓄積しており、そのサンプルDBは、テーマ毎に分類されている。検索用データ受信手段が受信した検索用データに対して、概念距離算出手段がセンターキーワードおよび一次パラメータを用いて、サンプルDBの中から類似性の高いサンプルを抽出するための比較演算をして最も類似しているサンプルを抽出する。そして、その最も類似しているサンプルを返信手段がユーザに返信する。
ユーザとしては、検索結果であるトポロジーグラフ出力データに最も類似したサンプルを入手できるので、更なる検索を行う際の参考としたり、検索方法の根本的な見直しをしたりするときなどに用いることができる。
(請求項4)
請求項4に記載の発明は、データ検索を実行するためのコンピュータプログラムに係る。
そのプログラムは、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットにユーザが入力した検索用データを受信する検索用データ受信手順と、受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手順と、その一次検索手順による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手順と、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手順と、その概念算出手順によって算出された概念距離を所定範囲のトポロジーグラフとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手順と、そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手順とをコンピュータに実行させるためのコンピュータプログラムである。
(請求項5)
請求項5に記載の発明は、請求項4に記載のコンピュータプログラムを限定したものである。
すなわち、ユーザに係るコンピュータへ送信されたトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザのコンピュータ操作によって概念距離の変更操作を可能としており、そのトポロジーグラフ出力データに基づいてユーザによって概念距離を操作されて新たに創作された検索用新データを受信する検索用新データ受信手順と、その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出す再一次検索手順と、検索用新データに基づく一次検索結果、二次パラメータから算出されたトポロジーグラフ出力データをユーザに返信する再返信手順とを備えたコンピュータプログラムに係る。
請求項4または5に係るコンピュータプログラムを、記録媒体へ記憶させて提供することもできる。ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、たとえば、フレキシブルディスク、ハードディスク、CD−R、MO(光磁気ディスク)、DVD−Rなどである。
また、これらの発明に係るプログラムを格納したコンピュータから、通信回線を通じて他のコンピュータへ伝送することも可能である。
なお、汎用的なコンピュータに対して、上記のような各手段を達成可能であるようなプログラムをプリインストール、あるいはダウンロードすることで、請求項1等に係る機能を備えた検索システムを形成することも可能である。
(第一のプロセス発明)
請求項4に対応させたプロセス発明を提供することも可能である。
すなわち、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットにユーザが入力した検索用データを受信する検索用データ受信手順と、受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手順と、その一次検索手順による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手順と、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手順と、その概念算出手順によって算出された概念距離を所定範囲のトポロジーグラフとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手順と、そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手順とを備えた検索方法である。
(第二のプロセス発明)
請求項5に対応させたプロセス発明を提供することも可能である。
すなわち、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットにユーザが入力した検索用データを受信する検索用データ受信手順と、受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手順と、その一次検索手順による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手順と、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手順と、その概念算出手順によって算出された概念距離を所定範囲のトポロジーグラフとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手順と、そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手順とを備えるとともに、ユーザに係るコンピュータへ送信されたトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザのコンピュータ操作によって概念距離の変更操作を可能としており、そのトポロジーグラフ出力データに基づいてユーザによって概念距離を操作されて新たに創作された検索用新データを受信する検索用新データ受信手順と、その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出す再一次検索手順と、検索用新データに基づく一次検索結果、二次パラメータから算出されたトポロジーグラフ出力データをユーザに返信する再返信手順とを更に備えた検索方法である。
また、本願が提供する別の発明は、検索対象に対して概念比較を実行することによって概念が近似する対象を抽出する検索システムに係る。
すなわち、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手段と、そのフォーマット提供手段によって提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手段と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出するとともに、検索対象についてもその検索概念と比較できるように検索対象概念を算出するフレーム化手段と、算出された検索概念と検索対象概念とを比較する概念比較手段と、その概念比較手段の比較結果について近似している順にソートするソート手段と、そのソート手段がソートした比較結果に基づいて検索結果データを作成する分類手段と、その分類手段に作成された検索結果データをユーザに係るコンピュータに返信する返信手段とを備えた検索システムに係る。
(用語説明)
ユーザに係るコンピュータと検索処理を行うサーバとは、ネットワーク(たとえばインターネット)を介して接続されている。
「ユーザが欲する検索テーマ」の一例として、マーケティングに関するテーマが挙げられる。具体的には、開発が企画されている新コンセプトに基づくソフトウェアについての「売れ行き見込み」である。
「フレーム化手段」とは、人工知能エンジンが検索用データを用いて検索対象に対して推論し、あるいは推論するための準備を行うための手段である。検索用データが自由記載のフォーマットであれば構文解析、意味解析手段や、シソーラスの辞書群などである。構文解析、意味解析の負担を軽減するためには、検索フォーマットを構文解析、意味解析が行いやすいフォーマットとする。あるいは、ユーザとの間で複数回のやり取りを実行することで構文解析、意味解析の負担を軽減する。
前記の「概念比較手段」は、たとえば、以下のような演算を行って算出する。すななち、シソーラスを集めたデータベースを用い、センターキーワードや制限事項に用いられた言葉を多次元のベクトルとする。そして、概念距離を算出したい二つの言葉についてそれぞれの多次元ベクトルの内積を算出する。この内積を用いて概念距離を決定し、概念の比較を行う。たとえば、算出された積が完全一致であれば1.0であり、概念距離はゼロである。このとき、同一の概念と判定される。
ここで、概念距離の演算にあたっては、概念辞書に基づいて決定するだけでなく、インターネットなどから収集した時事情報を取り込んだデータベースを参照したり、後述するように、ユーザの志向性情報が格納されたデータベースを参照したりして、概念距離を決定することが望ましい。
また、「概念比較手段」の演算手法は他の手法によってもよい。
(作用)
フォーマット提供手段が、ユーザに係るコンピュータに対して検索フォーマットを提供する。その検索フォーマットを提供されたユーザは、検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データを入力して送信する。すると、入力された検索用データを検索用データ受信手段が受信する。
フレーム化手段は、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出する。また、検索対象についても、検索用データから算出された検索概念と比較できるように検索対象概念を算出する。次に、概念比較手段が、算出された検索概念と検索対象概念とを比較する。そして、ソート手段その概念比較手段の比較結果について近似している順にソートする。そのソート手段がソートした比較結果を、返信手段がユーザに係るコンピュータに返信する。
以上により、ユーザとしては、「検索したい類似概念(たとえばマーケティング情報)に適した検索フォーマット」が提供されるので、多種多彩な検索条件の設定が可能となる。その結果、いわゆる予備検索をしてその結果を勘案しながら検索ターゲットを絞るような手順を減らしたり、省略したりすることが実現される。
なお、概念の比較結果について、ソート手段が作成したソート結果を分類したり編集したりする機能を備え、その分類、編集後のデータを検索結果データとして返信することとしても良い。
本願は上記の検索システムを限定した発明も提供する。
すなわち、前記フォーマット提供手段には、ユーザによる入力データを構文解析によってセンターキーワードとパラメータワードとの関係を放射状に表現したトポロジーグラフデータに変換するトポロジーグラフ化プログラムを含む。
また、そのトポロジーグラフ化プログラムが変換したトポロジーグラフは、センターキーワードとパラメータワードとの関係を距離の遠近で表現しており、且つその距離の遠近は、ユーザのコンピュータ操作によって概念距離の変更操作を可能としている。そして、前記の検索用データ受信手段は、ユーザによって概念距離を操作されて創作された検索用データを受信することとした検索システムである。
(用語説明)
前記の「トポロジーグラフ化プログラム」とは、センターキーワードを中心としたいわゆる放射状のマップ構造での出力を可能とするための演算プログラムである。たとえば、センターキーワードを真中心に位置すると全体が偏ってしまうような場合にセンターキーワードの位置を中心からずらすことによって、単純にトポロジーグラフとして表示すると重なってしまって見にくくなるような場合に全体のレイアウトを調整するような演算も含む。
「パラメータワード」とは、一次パラメータ、二次パラメータのいずれをも含む場合と、二次パラメータが存在しないために一次パラメータのみを指す場合とがある。
センターキーワードとパラメータワードとにつき「概念距離の変更操作を可能」とするとは、ユーザによるポインタやクリックボタン等を使って変更可能なデータである。一次パラメータと二次パラメータとの概念距離を変更操作可能としても良い。
(作用)
フォーマット提供手段は、そこに含まれているプログラムによって、ユーザによる入力データを構文解析し、その構文解析によってセンターキーワードとパラメータワードとの関係を放射状に表現したトポロジーグラフデータに変換する。
そのトポロジーグラフデータは、それを構成しているパラメータワードにつきユーザの操作によってセンターキーワードとの概念距離を変更する操作が可能である。したがって、その操作によって重視したいパラメータワードをセンターキーワードに近づけたり、重要でないパラメータワードを遠ざけたりする(距離を無限大とするのが「削除」である。)。そうして創作された検索用データをサーバに送信する。
検索用データ受信手段は、その検索用データを受信する。そして、フレーム化手段、概念比較手段、ソート手段および分類手段を用いて検索結果データを作成し、返信手段を介してユーザに返信する。
以上の作用から、ユーザとしては、最初に入力したデータが多次元的に表現されるので、直感的に理解しやすい。また、自分の得たいマーケティング情報を検索するためのデータとして相応しいかどうか、ズレがあるかどうかを捉えやすい。更に、そのズレの修正が簡単に行える。
上記の検索システムによれば、特に、検索用データの加工を自動化するとともに、自動化によるアウトプットを変更可能とすることで検索用データをより正確なものとし、検索の繰り返しを減らしたり省略したりできる。
本願は上記の検索システムを別の手段で限定したシステムも提供する。
すなわち、検索対象を予め所定のデータベースに格納しておくとともに、そのデータベースに格納された検索対象を複数のグループに分類してグループ化しておき、フレーム化手段は、各グループの代表となる検索対象のみについて検索対象概念を算出することとした検索システムである。
(用語説明)
「所定のデータベースに格納」される検索対象については、予め限定的に作成されていて加減ができないデータであってもよいし、検索の手順を踏む中で加減が可能なデータベースとしてもよい。たとえば、検索対象を絞るために、データ作成日や更新日を用いて限定する、などである。
「グループ化」の基準は、既存の分類方法による分類(たとえば、ハワイ旅行、グアム旅行などを「海外旅行」、熱海旅行、別府旅行などを「温泉旅行」とするなど)のほか、ある検索が実行される際のセンターキーワードやパラメータワードによるフレーム化の結果を用いて類似するものをその検索実行の時点でグループ化することとしてもよい。
(作用)
検索対象を予め所定のデータベースに格納したデータに限る。また、そのデータベースに格納された検索対象を複数のグループに分類してグループ化しておく。そして、各グループの代表となる検索対象のみについて検索対象概念を算出する。
算出された検索対象概念は、グループの代表であるから、大量のデータを大まかに処理することができる。
上記限定された検索システムによれば、特に、検索対象が大量にある場合に効率的なアウトプットを得ることができる。
さらに、本願は、顧客候補に対して概念比較を実行することによって概念が近似する顧客候補を抽出するマーケティング用の検索システムについても提供する。
すなわち、顧客候補についてのデータを予め格納する顧客候補データベースと、ユーザが欲するマーケティングテーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、マーケティング結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手段と、そのフォーマット提供手段によって提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手段と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出するとともに、前記顧客候補データについてもその検索概念との比較ができるように顧客候補概念を顧客候補データごとに算出するフレーム化手段と、算出された検索概念と顧客候補概念とを比較する概念比較手段と、その概念比較手段の比較結果について近似している順にソートするソート手段と、そのソート結果データをユーザに係るコンピュータに返信する返信手段とを備えた検索システムである。
(用語説明)
「顧客候補についてのデータ」とは、顧客候補が会社であれば、資本金額、従業員の数、主力商品、主な取引先などの書誌的データや、ホームページに開示しているデータなどである。
(作用)
顧客候補についてのデータを、顧客候補データベースに予め格納する。
次に、フォーマット提供手段が検索フォーマットをユーザに係るコンピュータに提供する。その検索フォーマットとは、ユーザが欲するマーケティングテーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、マーケティング結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうためのフォーマットである。そのフォーマット提供手段によって提供した検索フォーマットに入力された検索用データは、検索用データ受信手段が受信する。
受信した検索用データにおけるセンターキーワードおよび一次パラメータから、フレーム化手段が検索概念を算出する。また、フレーム化手段は、前記顧客候補データについてもその検索概念との比較ができるように顧客候補概念を顧客候補データごとに算出する。算出された検索概念と顧客候補概念とは、概念比較手段が比較し、その概念比較手段の比較結果について近似している順にソート手段がソートする。そして、返信手段が、そのソート結果データをユーザに係るコンピュータに返信する。
以上により、漠然としたマーケティングテーマに対して顧客候補の中から顧客となりそうな者を抽出するという、これまでであれば手作業で行わなければならなかった作業を、概念比較という機械的な手法によってきわめて効率的にアウトプットを得ることができる。
さらに、本願は、検索対象に対して概念比較を実行することによって概念が近似する対象を抽出する検索を実行するためのコンピュータプログラムを提供する。
そのプログラムは、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手順と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出するとともに、検索対象についてもその検索概念と比較できるように検索対象概念を算出するフレーム化手順と、算出された検索概念と検索対象概念とを比較する概念比較手順と、その概念比較手順による比較結果について近似している順にソートするソート手順と、そのソート手順にてソートした比較結果データをユーザに係るコンピュータに返信する返信手順とをコンピュータに実行させることとしたコンピュータプログラムである。
さらに、本願は、顧客候補に対して概念比較を実行することによって概念が近似する顧客候補を抽出する検索を実行してマーケティング分析をするためのコンピュータプログラムも提供する。
そのプログラムは、ユーザが欲するマーケティングテーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、マーケティング結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手順と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出する検索用データフレーム化手順と、その検索用データフレーム化手順にて算出された検索概念と予め顧客候補データベースに格納した顧客候補に関する顧客候補データと比較できるように顧客候補概念を顧客候補データごとにフレーム化する顧客候補フレーム化手順と、算出された検索概念と顧客候補概念とを比較する概念比較手順と、その概念比較手順による比較結果について近似している順にソートするソート手順と、そのソート結果データをユーザに係るコンピュータに返信する返信手順とをコンピュータに実行させることとしたコンピュータプログラムである。
これら本願が提供するコンピュータプログラムを、記録媒体へ記憶させて提供することもできる。また、これらの発明に係るプログラムを格納したコンピュータから、通信回線を通じて他のコンピュータへ伝送することも可能である。
なお、汎用的なコンピュータに対して、上記のような各手順を達成可能であるようなプログラムをプリインストール、あるいはダウンロードすることで、請求項1等に係る機能を備えた検索システムを形成することも可能である。
本願は、上記の2つのコンピュータプログラム発明に対応させた2つのプロセス発明も提供する。
第一のプロセス発明とは、検索対象に対して概念比較を実行することによって概念が近似する対象を抽出する検索を実行するための方法であって、ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手順と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出するとともに、検索対象についてもその検索概念と比較できるように検索対象概念を算出するフレーム化手順と、算出された検索概念と検索対象概念とを比較する概念比較手順と、その概念比較手順による比較結果について近似している順にソートするソート手順と、そのソート手順にてソートした比較結果に基づいて検索結果データを作成する分類手順と、その分類手順にて作成された検索結果データをユーザに係るコンピュータに返信する返信手順と踏む検索方法である。
一方、第二のプロセス発明とは、ユーザが欲するマーケティングテーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、マーケティング結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、そのフォーマット提供手順にて提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手順と、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出する検索用データフレーム化手順と、その検索用データフレーム化手順にて算出された検索概念と予め顧客候補データベースに格納した顧客候補に関する顧客候補データと比較できるように顧客候補概念を顧客候補データごとにフレーム化する顧客候補フレーム化手順と、算出された検索概念と顧客候補概念とを比較する概念比較手順と、その概念比較手順による比較結果について近似している順にソートするソート手順と、そのソート結果データをユーザに係るコンピュータに返信する返信手順と踏む検索方法である。
本願では、このほか、検索作業にかかる個人の考え方を反映させつつ検索作業全体を可視化させる技術を提供することをも目的として、以下のような検索システムの発明も開示する。
この個人の考え方を反映させる目的にかかる第一の検索システム発明は、検索条件データおよび検索結果データを含む検索データ群の関連性を視認できるように、検索データ群の要素である検索データに対応する複数のアイコン状のノードと、検索データデータ同士の関連性に応じた長さでそれらのデータにかかるノード間に配置されるリンクとから構成されるトポロジーグラフを用いて検索情報を表示装置に表示する検索システムであって、 検索データが属する概念に対する個人の志向性を定量化した志向性データを概念単位で格納する志向性データベースと、 検索データがいずれの概念に属するかを判別可能な概念対応データを格納する記憶手段と、 ユーザの指示が入力される入力手段と、 入力手段からの入力信号が検索データのいずれかを表示する旨のコマンドを含むことを条件として、表示にかかる検索データが属する概念がいずれであるかを概念対応データに基づいて判定し、志向性データベースの当該概念に対応する記憶領域に、入力手段からの信号入力時間とともにデータ表示がなされた旨をイベントデータとして書き込むデータ表示履歴書込手段と、 入力手段からの入力信号が検索データのいずれかに関する検索コマンドを含むことを条件として、検索データが属する概念がいずれであるかを概念対応データに基づいて判定し、志向性データベースの当該概念に対応する記憶領域に、入力手段からの信号入力時間とともに検索が行われた旨をイベントデータとして書き込むデータ検索履歴書込手段と、 検索コマンドを含む信号が入力手段から出力されたことを契機として実行された検索処理により得られた検索結果データに対応する演算対象ノードの上位階層側リンクの長さを演算するリンク長演算手段とを有し、 このリンク長演算手段は、 演算対象ノードに関連づけられた検索結果データおよび演算対象ノードの上位階層ノードに関連づけられた検索データの意味的な関連性を定量化した概念距離を、演算対象ノードに対応する概念の志向性データによって変更する演算を行うことを特徴とする検索システムである。
「トポロジーグラフ」とは、検索条件データおよび検索結果データを含む検索データ群の関連性を視認できるように、検索データ群の要素である検索データに対応する複数のアイコン状のノードと、検索データデータ同士の関連性に応じた長さでそれらのデータにかかるノード間に配置されるリンクとから構成される表示装置への表示体である。
この検索データ群を構成するデータには、検索条件のデータもあれば、検索結果のデータもある。このため、双方を含む意味で検索データ群の要素となるデータを「検索データ」と称する。
また、この検索データとは、テキストデータであってもよいし、画像データであってもよい。さらには、数値データやバイナリデータであってもよい。いずれにしても、ユーザが必要に応じて参照するにたる有意なデータであって、他のデータと区別可能なものであればよい。
また、ノードは、その検索データに対応付けられたデータを他のデータと識別できるように表示されているのであれば、いかなる形態であってもかまわない。たとえば、代表的な単語が中央に記載された図形でもよいし、その図形または表示文字の一部または全部が着色されていてもよい。さらに、ノードの形状が経時的に変動することで何らかの情報を表示してもよい。
トポロジーグラフの表示形式は、地図のような二次元的な表示、三次元CADのような仮想的な三次元表示、ホログラムなどの三次元表示手段を用いた三次元的な表示のいずれであってもよい。
したがって、検索データ群を入力として、こうした形式での表示を実現するための表示データを作成して液晶ディスプレイなどの画像表示手段へと出力する処理、または表示データを作成する旨のコマンドをグラフィックボードなどの画像処理装置へと出力する処理を行う「トポロジーグラフ表示手段」が本検索システムには備えられている。なお、これら表示データおよび表示作成コマンドを総称して「表示用データ」と定義する。
「志向性データベース」とは複数の概念に対するユーザの志向性情報を概念単位で蓄積するものである。
また、「記憶手段」とは、こうした処理を行うために、トポロジーグラフの各ノードに対応するデータがいずれの概念に属するかを判別するためのデータと概念との対応関係を「概念対応データ」として格納するものである。ノードと検索データとの対応付けはあらかじめなされているので、この概念対応データを参照することで、各ノードがどの概念に関連付けられているかを判別することが実現される。
「入力手段」とは、キーボードやマウス、リモコン、ゲームコントローラなどユーザの意志を本発明にかかるシステムに伝えるための機器である。
「データ表示履歴書込手段」とは以下の処理を行うものである。まず、入力手段から出力される信号を入力とし、その入力信号が検索データのいずれかを表示する旨のコマンド(表示コマンド)を含むか否かを判定する。
そして、表示コマンドを含む信号であると判定したことを条件として、記憶手段に格納される概念対応データを適宜参照しつつ、表示にかかる検索データが属する概念がいずれであるかを特定する。
続いて志向性データベースにアクセスして、この特定された概念に対応する記憶領域に、入力手段からの信号が入力された時間とデータ表示がなされた旨とをイベントデータとして書き込む。
「データ検索履歴書込手段」は上記データ表示履歴書込手段とほぼ同等の処理を行うものである。入力手段からの入力信号が検索データのいずれかに関する検索コマンドを含むことを条件として、その検索データが属する概念を特定する。
そして、志向性データベースの対応する記憶領域に、入力手段からの信号入力時間とともに検索が行われた旨をイベントデータとして書き込む。ここで、データ検索履歴書込手段とデータ表示履歴書込手段とは同一の手段であり、イベントデータとして書き込むデータが、入力手段からの入力信号に応じて変化するようにしてもよい。入力信号かかるコマンドが表示コマンドである場合には識別番号「1」と時間データとからなるデータセットをイベントデータとし、検索コマンドである場合には、このデータセットが識別番号「2」と時間データからなるといった具合である。
「リンク長演算手段」とは、検索コマンドを含む信号が入力手段から出力されたことを契機として実行される検索処理により得られた検索結果データにかかる信号が入力されたことを契機として処理を開始するリンク長の演算手段である。
まず、その検索結果データに対応する演算対象ノードを特定し、その演算対象ノードに対応づけられた各種データ(検索結果データ、主概念、副概念など)を参照可能とする。その中に演算対象ノードの上位側ノードとの概念距離が含まれている場合にはそのデータを参照し、含まれていない場合には概念辞書を使って概念距離を算出する。
次に、志向性データベースにアクセスして、演算対象ノードに対応づけられた概念にかかる志向性データを読み込む。そして、この概念距離と志向性データとを用いてリンク長を演算する。
このように、通常は概念距離にのみ基づいてリンク長を算出する場合が多いが、本発明では、概念距離を志向性データによって変更してリンク長を算出することとしている。このため、志向性データを提供する人間に応じて、異なるリンク長が設定されることとなり、その結果として得られるトポロジーグラフの形状も個人の志向性を反映したものとなる。
上記個人の考え方を反映させる目的にかかり提供される第二の検索システム発明は、第一の発明を限定したものである。
すなわち、志向性データベースは、ユーザの主観的志向性の定量値を志向性データとして格納する主観的志向性記憶領域を概念単位で有し、入力手段からの入力信号がいずれかの概念の主観的志向性の定量値を変更する旨のコマンドを含むもことを条件として、入力手段からの入力信号に基づいて判定された主観的志向性定量値を、志向性データベースのその概念に対応する主観的志向性記憶領域に書き込む主観的志向性書込手段を有する検索システムである。
「主観的志向性書込手段」とは、入力手段からの入力信号がいずれかの概念の主観的志向性の定量値を変更する旨のコマンド(主観的志向性変更コマンド)であるか否かを判定し、主観的志向性変更コマンドを含むと判定したことを条件として以下の処理を行うものである。
まず、入力手段からの入力信号がいずれの概念に関する主観的志向性の定量値を変更するのかについて判定する。ここで、変更にかかる概念を直接指定している場合もあるが、ノードを指定している場合や検索データを指定している場合もある。それらの場合には、ノードや検索データに対応する概念がいずれであるかを概念対応データに基づいて判定することとなる。
こうしていずれの概念が対象であるかを判定したら、次に、対象となる概念の主観的志向性定量値を入力信号に基づいて判定する。なお、ノード単位や検索データ単位で指定されている場合には複数の概念が対象となっていることもある。このときはノードや検索データにおける各概念の関連性の強さを用いて、概念ごとに定量値を演算する。
そして、志向性データベースにアクセスして、その概念に対応する主観的志向性記憶領域に演算された定量値を書き込む。
このようにして書き込まれた主観的志向性定量値は、リンク長演算手段によって参照されて、リンク長の算出の基礎データとして用いられる。
上記個人の考え方を反映させる目的にかかり提供される第三の検索システム発明は、第一の発明についての別の態様での限定であって、志向性データベースは、ユーザの操作履歴に基づく客観的志向性の定量値を志向性データとして格納する客観的志向性記憶領域を概念単位で有し、データ表示履歴書込手段とデータ検索履歴書込手段との少なくとも一方によってイベントデータが志向性データベースに書き込まれたことを条件として、そのイベントデータのデータセットを志向性データベースから読み込み、そのデータに基づいて算出される単位時間あたりの平均イベント発生回数を用いて客観的志向性の定量値を求める演算を行い、客観的志向性記憶領域にその定量値を書き込む客観的志向性書込手段を有する検索システムである。
「客観的志向性書込手段」とは、入力手段からの直接的な志向性変更のコマンドの入力を契機とするのではなく、ユーザが入力手段を介してトポロジーグラフにアクセスしたことを契機として、そのアクセス内容に基づいて客観的志向性の変更処理を行う手段である。
まず、データ表示履歴書込手段とデータ検索履歴書込手段との少なくとも一方によって志向性データベースにイベントデータが書き込まれたか否かを判定する。イベントデータが書き込まれたと判定したことを条件として、そのイベントデータのデータセットを志向性データベースから読み込む。
次に、そのデータセットに含まれるデータに基づいて単位時間あたりの平均イベント発生回数を算出する。続いて、その平均イベント回数を用いて客観的志向性の定量値を求める演算を行う。
そして、読み込んだイベントデータに対応する概念に係る志向性データベースの客観的志向性記憶領域に、算出した客観的志向性の定量値を書き込む。複数の概念についてイベントデータが書き込まれた場合には、それぞれの概念について上記処理を行って客観的志向性の定量値を書き込む。
このようにして書き込まれた客観的志向性定量値も、リンク長演算手段によって参照されて、リンク長の算出の基礎データとして用いられる。
請求項1および請求項4に記載の発明によれば、最初の検索条件設定をユーザのイメージに近づけて提供できる検索技術を提供することができた。
請求項2に記載の発明によれば、更に、検索結果に基づいた次の検索条件設定を簡易化できる検索技術を提供することができた。
請求項3に記載の発明によれば、更に、ユーザの利便性を高める検索技術を提供することができた。
請求項4および請求項5に記載の発明によれば、最初の検索条件設定をユーザのイメージに近づけて提供できる検索技術を実行可能なコンピュータプログラムを提供することができた。
以下、図面を用いつつ、本願発明にかかるトポロジーグラフを用いた検索システムの実施形態の一つについて説明する。なお、この説明において使用される図面は、図1から図17である。
(図1)
図1は、トポロジーグラフを用いた検索システムの一例として、検索を実行するサーバと、そのサーバをインターネットなどのネットワーク経由で利用するクライアントPCとの関係を図示したものである。
ここで、「クライアントPC」とは、ユーザが直接または間接的に情報を入力可能なコンピュータであって、インターネットやイントラネットなどのネットワークを介して接続するサーバに対してユーザの指示に基づく情報を送信する処理を行ったり、サーバから受信した情報を適宜加工しディスプレイなどの表示手段に表示させる処理を行ったりするものである。その形態はデスクトップ型でもノートブック型でもかまわなく、さらには、所定の情報処理を行うことができるのであれば、PDA(携帯情報端末)でも携帯電話でもかまわない。
サーバからクライアントPCに対して、フォーマット提供手段が検索用のフォーマットを提供し、クライアントPCの受信手段にて受信する。このフォーマットについては後述するが、センターキーワードを中心にパラメータが放射状に連結してなるトポロジーグラフを形成するためのフォーマットである。
提供されたフォーマットに対してユーザが入力手段を用いて入力したトポロジーグラフに相当するデータを、クライアントPCは検索用データとしてサーバに送信する。
送信された検索用データは検索用データ受信手段が受信する。そして、一次検索手段が受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を実行する。このとき、単なるアンド条件で検索条件を作るのではなく、類義語を含んで検索しても良い。たとえば、センターキーワードが「ハワイ旅行」であり、一次パラメータが「ホテル」である場合には、「ハワイ旅行に用いるホテル」だけでなく、「ハワイ旅行に用いるコンドミニアム」や「ハワイ旅行に用いるペンション」も検索条件として含まれることになる。
なお、一次検索の対象は、インターネット上から探してくるのでも良いが、インターネット上のデータから構築されたデータベース(図中、「既作成DB」と表記)を用いることが多い。検索スピードが速いからである。
一次検索手段が検索した結果を用いて、二次パラメータ作成手段が一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する。そして、センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を概念距離算出手段が算出する。トポロジーグラフ化手段は、その概念距離に基づいて、二次パラメータを一次パラメータとの関係を多次元表記する。その多次元表記結果であるトポロジーグラフは、返信手段がクライアントPCに対して返信する。受信したクライアントPCは二次パラメータが接続されて送信時より成長したトポロジーグラフを出力する。ユーザはそのトポロジーグラフをクライアントPCの画面上で見たり、プリントアウトしたりするなどして活用する。あるいは、次なる検索のたたき台として用いる。
(図2)
図2は、サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。
フォーマット提供手段は、検索センターキーワードひとつと、その検索センターキーワードに対するコンセプトパラメータを数個と、階層総数の制限とをフォーマットとしてクライアントPCに提供する。クライアントPCのユーザは、センターキーワードとして「ハワイ旅行」と入力し、そのハワイ旅行に関連するコンセプトパラメータとして「旅行代理店」、「観光スポット」、「ホテル」、「格安航空券」、「オアフ島」を入力する。そして、各コンセプトパラメータの階層となる総数を「20」と入力する。5つのコンセプトパラメータに対して4つずつの検索結果を得るというイメージからである。
提供されたフォーマットには、テキストデータにて入力されたデータをトポロジーグラフ化するプログラムが含まれており、図2下側に示すような、ハワイ旅行を中心とした放射状の検索データであるトポロジーグラフに変換して、クライアントPCの出力画面に表示する。そして、それをクライアントPCが確認したらサーバに対して送信する。
なお、上記トポロジーグラフ化プログラムはあらかじめクライアントPCにインストールされていてもよい。または、クライアントPCがフォーマットデータをサーバに送信し、サーバ内に設けられたトポロジーグラフ化プログラムでフォーマットデータをトポロジーグラフ化してクライアントPCへとサーバが送信してもよい。
(図3)
図3もまた、サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。図2との違いは、予めトポロジーグラフデータによるフォーマットをクライアントPCの出力画面に表示している点であり、余白部分に「検索シートの書き方」として注意点などを表示している。
(図4)
図4もまた、サーバがクライアントPCに提供するトポロジーグラフデータによるフォーマットと、クライアントPCに入力された検索用データ、すなわちトポロジーグラフとを図示した概略図である。図3との違いは、余白部分には、検索シートのサンプルを表示している点である。もちろん、検索シートの書き方を併せて表示しても良い。
(図5)
図5もまた、サーバがクライアントPCに提供するトポロジーグラフデータによるフォーマットと、クライアントPCに入力された検索用データ、すなわちトポロジーグラフとを図示した概略図である。図2、図3、図4との違いは、検索テーマに対する自由記載方式を採用し、階層総数の制限以外は、文章で表現している点である。検索シートのサンプルを表示したり、検索シートの書き方を併せて表示したりしても良い。
自由記載されたテキストデータは、システムから送信されたフォーマットとともに送り込まれたプログラムがトポロジーグラフ化する。このプログラムは、文脈を解析してセンターキーワードを抽出する手順と、そのセンターキーワードに対して一次パラメータを抽出して多次元的に配置するという手順とを、ユーザに係るコンピュータで実現するコンピュータプログラムである。
このプログラムも、クライアントPCがあらかじめ有していてもよいし、サーバが有していてクライアントPCとサーバとの間でデータのやりとりをすることとしてもよい。
(図6)
図6では、二次以降の高次パラメータ作成手段の機能を図示している。検索フォーマットの一部として、「ホテル、オアフ島」の部分を抽出して説明する。
一次検索手段が、既作成データベースに対して「ハワイのホテルであってオアフ島に関連するもの」という検索を実行し、Aホテル、Bホテル、Cホテル、ホテルDなどを抽出してきたとする。続いて、フィルタリング処理によって、「コンサート」といった宿泊に無関係な情報を削除する。更に、高次パラメータ作成手段が、「格安航空券」という別の一次パラメータから経済的なホテルの方がユーザの希望に見合うという推論の下、Aホテル、Bホテル、ホテルD、・・をソートする。その結果、「ホテル」という二次パラメータに対して、階層総数15というユーザによる指定(制限条件)との関係も加味して、「Aホテル」、「Bホテル」、「ホテルD」という3つを「オアフ島」という二次パラメータの下に三次パラメータとして接続させる。
ここで、予めクライアントPCのユーザの興味や志向が本発明に係るシステムにデータとして蓄積されている場合には、そのデータに基づいて推論を行っても良い。たとえば、ユーザは激安ホテルを選択する場合が多いことがデータとして蓄積されている場合には、そのデータに基づいて宿泊費が安いホテルを優先して選択することになる。或いは、「お得感」を常に求めるユーザである場合には、通常条件に対する割引率が高いホテルから優先的に選択することになる。
(図7)
図7では、概念距離算出手段の機能を図示している。図6に図示したように、「ホテル」という一次パラメータに接続されている「オアフ島」という二次パラメータに、「Aホテル」、「Bホテル」、「ホテルD」という3つの三次パラメータが接続することが決定されている。このとき、経済的なホテルという概念を重視する場合には、最も安い「Bホテル」がそのコンセプトに見合っており、3つの中では最も高い「ホテルD」はそのコンセプトに最も見合わない。そこで、オアフ島というパラメータからの距離として、「Bホテル」を最も近づけ、「ホテルD」を最も遠ざけるといった演算を行うのが概念距離算出手段である。
この概念距離設定の一例として、以下のように規格化しても良い。
強く惹かれると推測される: 0.2
惹かれると推測される: 0.5
特に興味なしと推測される: 1.0
どちらかといえば嫌いと推測される:1.5
嫌いであると推測される: 2.0
さて、ユーザのコンピュータに送信したトポロジーグラフは、それを構成している三次パラメータにつきクライアントPCを操作することによって概念距離の変更操作が可能とされている。そこで、ユーザはポインタ操作などによってその三次パラメータを操作する。
たとえば、「Aホテルが良かった」あるいは「Bホテルは良くなかった」という情報を知っていたユーザは、「Aホテル」をオアフ島に近づけたり、「Bホテル」を遠ざけたりするという操作を行う。全く候補から外す場合には、削除することもできる。この様にしてユーザの興味や志向を概念距離として反映させることができる。
この概念距離は、任意に設定可能であるが、たとえば次のように規格化しても良い。
強く惹かれる: 0.2
惹かれる: 0.5
特に興味なし: 1.0
どちらかといえば嫌い:1.5
嫌いだが削除はしない:2.0
関わりたくない:∞(パラメータ削除)
このように自らの関心度合いを概念距離に反映させることで、関心がある分野ほど中心のセンターキーワードに近接することになり、自らの興味や志向を視覚的に把握しやすくなる。
なお、このようなユーザの概念距離の操作、またはその操作の意味するところ(興味や志向の方向性)が記述されたデータはシステムの一部としてサーバまたはクライアントPCに蓄積され、その後の操作におけるユーザの興味や志向の推論に用いられる。
(図8)
図8は、サーバから出力されたトポロジーグラフを「予備検索」と位置づけ、新たな検索を行う場合について図示したものである。
図7を用いて説明したような、概念距離の変更操作後のトポロジーグラフを、検索用新データとして送信する。
送信された検索用新データに基づいて新たな検索条件が作成されて、一次検索が実行される。一次検索条件の設定段階でユーザにより変更された概念距離や、予め蓄積されたユーザの興味や志向が反映されて推論が行われるようにしてもよい。このように一次検索条件設定の段階でも推論を行うことで、一次検索結果の総数が少なくなり、さらには次ステップの四次パラメータ作成手段の負荷が緩和されて、システム負荷の緩和およびユーザにおける待ち時間等のストレスが緩和される。
なお、一次検索は、既作成データベースではなく、インターネット上にて検索するイメージを図示しているが、既作成データベースで済む場合にはそれでもよい。
続いて、高次パラメータ作成手段が制限事項を用いたフィルタリング処理をこの検索結果に対して実行することによって、四次パラメータが作成される。
このとき、ユーザにより変更された二次-三次パラメータ間の概念距離として表現された興味や志向の程度に応じてフィルタリングのレベルが変更される。このため、概念距離が短い三次パラメータには多数の要素が四次パラメータとして選択されるが、概念距離が長い三次パラメータには少数の要素しか四次パラメータとして選択されない。このようにして、ユーザの興味や志向に応じて情報量が変動することになる。その結果として、ユーザが着目する分野の情報量が増加し、視覚的にもユーザの興味や志向が把握されやすいトポロジーグラフが構築されることになる。
続いて、センターキーワードと各次のパラメータとを論理積したものに基づいて形成される概念と、これに連結されるべき新たな各三次パラメータによる概念との概念距離を概念距離算出手段が算出する。この段階での概念距離にもユーザの興味や志向が反映されることで、よりユーザの意思を反映したトポロジーグラフが構築される。
このように概念算出手段によって算出された概念距離を、トポロジーグラフ化手段が所定範囲のトポロジーグラフデータに表現可能なトポロジーグラフとし、返信手段がユーザに返信する。
また、検索用新データを用いて作成された新たなトポロジーグラフは、最初のトポロジーグラフとともにクライアントPCに返信される。すると、クライアントPCのユーザは、最初のトポロジーグラフとの比較を簡単に行うことが実現される。
(図9)
図9は、図8に示した出力のバリエーションを示したものである。
システム内部には、出力結果として使えるサンプルトポロジーグラフを蓄積したサンプルDBを備えており、そのサンプルDBは、テーマ毎に分類されている。概念距離算出手段に含まれるトポロジーグラフ比較手段は、検索用データ受信手段が受信した検索用データについて、センターキーワードおよびパラメータを用いて、サンプルDBに格納されるサンプルトポロジーグラフとの比較演算をして最も類似しているサンプルトポロジーグラフを抽出する。抽出された類似するサンプルトポロジーグラフを、返信手段がクライアントPCに返信する。
ここで、類似するサンプルトポロジーグラフの検索手法の一例について説明する。
第一のステップとして、当該トポロジーグラフにおけるセンターキーワードに類似する言葉を検索対象センターキーワードとして設定する。たとえば、センターキーワードが「ハワイ旅行」である場合に、「グアム旅行」を類似するセンターキーワードとして設定する段階である。
この類似するセンターキーワードの設定においてもいくつかの手法がある。
まずシステムで取り扱う単語をその意味に応じて予めいくつかの区分に分類し、さらに区分内に属する単語を概念的に階層化しておく。たとえば、「海外ビーチリゾート」の下位に「太平洋」、「大西洋」、「インド洋」、「カリブ海」、「地中海」、「アジア」が属し、「太平洋」の下位には「北太平洋」、「南太平洋」が属し、「北太平洋」の下位に「ハワイ」、「グアム」、「フィリピン」、「サイパン」など具体的なリゾートエリアが属しているとする。
このとき、「ハワイ旅行」の類似語を探すために、その主要単語である「ハワイ」に着目する。そして、概念階層において「ハワイ」の直上の単語である「北太平洋」に属する全単語、即ち「グアム」、「フィリピン」、「サイパン」などを類似の範囲として規定する。
または、その主要単語である「ハワイ」が属する概念階層の最上の単語である「海外ビーチリゾート」に属する全単語を、類似の範囲として規定する。したがって、「グアム」、「フィリピン」、「サイパン」だけでなく、「インド洋」に属する「セイシェル」なども類似範囲として含まれることになる。
なお、ここでは自動的に類似範囲を規定する手法を示したが、ユーザに類似範囲を規定させても良い。たとえば、「ハワイ旅行」に類似するものとして、ユーザが「ミッドウェー島旅行」を規定しても良い。
この情報を記述したデータは、今後の検索に反映されるように、クライアントPC内の記憶手段に格納される。
続いて、第二のステップとして、類似範囲として規定された単語を含む言葉をセンターキーワードとするトポロジーグラフをサンプルデータベースから抽出して、「ハワイ旅行」のトポロジーグラフとの類似度を評価する。
この類似度を評価するためには、以下のようにして予めトポロジーグラフの定量化を行う。
まず、トポロジーグラフの構造上の特徴を示す構造点数について説明する。
第一に各次のパラメータについて自らの下位に属するパラメータ総数を算出する。一般的には、センターキーワードに近い低次パラメータほど下位パラメータ総数が大きく、ユーザが当該パラメータに関心があり関連項目が深耕りされると下位パラメータ総数は増加する。
次に、各パラメータについて、センターキーワードからの概念総距離を算出する。前述の例に基づくと削除されていない限り各パラメータ間の距離は0.2から2.0の範囲に属する。深い階層までを検索して得られたパラメータは階層が深い分、センターキーワードからの概念総距離が大きくなる。
続いて、各パラメータについて個別の構造点数=(下位パラメータ総数)/(概念総距離の二乗)を算出する。この個別点数の総和がトポロジーグラフの構造点数となる。構造点数が大きいということは、低次パラメータにおいて分岐数が大きく、広がりのある構造を有していることを示している。
もう一つのトポロジーグラフの定量化として、センターキーワードの概念階層上の位置づけ(階層)である概念点数を算出する。概念点数が小さいということは、センターキーワードが概念的に上位に属する単語を中心に構成されていることを意味する。
この構造点数と概念点数とを2次元上にプロットすると、そのトポロジーグラフの特徴を把握することができる。
一般論として、概念点数が小さい場合、すなわちセンターキーワードが比較的上位概念である場合には、構造点数は大きくなる。上位概念の単語ほど多数の下位概念の単語を従えているからである。このため、一般的なトポロジーグラフについては、構造点数と概念点数とのプロットは負の相関を示すことになる。
ところが、概念点数と構造点数とがともに大きくなる場合もある。センターキーワードを構成する単語としては下位概念側に属しながら、ユーザがその概念に属する多くの事象に興味を示して多面的な検索を行い、その結果として多数の分岐を有している場合である。
逆に、概念点数と構造点数とがともに小さくなる場合もある。センターキーワードを構成する単語としては上位概念でありながら、ユーザがその概念に属する事象の中で特定のものにのみ関心を示し、分岐の広がりが少ない場合である。
このように、センターキーワードについての構造点数および概念点数のみを用いることで、少ない演算負荷でトポロジーグラフの定量化を行うことが実現されるが、下位の階層の構造点数・概念点数を用いると、更に詳細にトポロジーグラフの特性を定量的に把握することもできる。
たとえば、センターキーワードに接続する各パラメータの構造点数をトポロジーグラフの構造点数で除して各パラメータの構造比率を算出し、上位数個(たとえば3個)を選び出す。
これらについて概念点数と構造点数との二次元プロットを行う。なお、一般的には上位にランクされるのはセンターキーワードと直接的に接続する一次パラメータである。
こうして得られた3個の点が作る三角形の面積や重心の位置、さらには重心と各点との距離の最大値によってもトポロジーグラフの特徴を把握することができる。
以上のような定量化の結果を用いて、複数のトポロジーグラフの類否判定を行う。具体的には、上記のセンターキーワードについての二次元プロットにおける配置座標が離れている場合や、下位階層のパラメータをも用いた特性評価の結果として二次元プロットに描かれる三角形同士に重なり合いがない場合には、具体的な言語レベルでの比較を行うまでもなく、類似している可能性は低いと判定される。
上記プロセスで類似性ありと判定されたトポロジーグラフについては、構造点数が高いパラメータについて言語レベルでの比較を行い、類否判定を行う。同義語或いは類義語であると判定されたパラメータの個数によってトポロジーグラフとしての類似度をレベル分けしても良い。
なお、上記の類否判定に用いられるようなパラメータの複数に概念上の関連性が強い、たとえば同一の概念区分内にすべてのパラメータが属する場合には、ユーザの興味がその区分に集中しており、これらのパラメータのうち概念階層が最も低い位置にある単語はユーザの興味を象徴する単語である可能性が高い。したがって、このような場合には、この単語をパラメータとして含むトポロジーグラフであれば、他のパラメータが類似していなくても類否判定上は類似度大と判定しても良い。
以上のプロセスで、「ハワイ旅行」のトポロジーグラフに類似する「グアム旅行」や「サイパン旅行」のトポロジーグラフをサンプルDBから選択することが実現される。
もちろん、このプロセスによれば「ハワイ旅行」であって構造上類似するトポロジーグラフも選択可能である。
運用上は、センターキーワードが「ハワイ旅行」であって類似するトポロジーグラフと、センターキーワードが「ハワイ旅行」ではない類似するトポロジーグラフとをクライアントPCに返信し、後者はセカンドオピニオンとして提示することが望ましい。
こうした類似データの選択プロセスを応用すると、既存のトポロジーグラフに新たな条件を付与する検索も容易に実現される。具体的には、既存のハワイ旅行に関するトポロジーグラフに対して、「このハワイ旅行よりも安価に同様の楽しみを得られるツアーを探す」といった検索を実現することができる。
このトポロジーグラフが一種のツアーパッケージとなっており、各トポロジーグラフにツアー価格が規定されている場合には、類否判定の段階における判定基準を緩和して候補トポロジーグラフ数を増やすとよい。そして、ツアー価格が低い順番にソートすることで所望のトポロジーグラフを得ることができる。たとえば、前述のパラメータ構造比率を用いた類否判定を行うときに、判定の対象とするパラメータ数を増やすと(たとえば、3つ→6つ)、パラメータが二次元プロット上に作る図形は一般的に大きくなる。このため、比較する二つのトポロジーグラフは互いに重なりやすくなり、類似していると判定されやすくなる。
これに対してツアー価格が不明な場合には、同様に類否判定の判定基準を緩和して候補トポロジーグラフ数を増やすものの、次に、ツアー価格を安くする要因となり得る単語(たとえば「安い」、「激安」、「お得」)をパラメータまたはパラメータのメタデータに含むトポロジーグラフを候補内で検索して、該当するトポロジーグラフを優先的に抽出するようにすれば良い。
あるいは、類似の可能性ありと判定されたトポロジーグラフについて、それらの作成者の興味や志向が記憶されたデータベースを参照して、安いツアーを求める傾向があるものを優先的に抽出するようにしても良い。
(図10)
図10は、上記の説明にかかるトポロジーグラフを用いた検索システムに対するインプットと最終的なアウトプットとを概念的に示したものである。アウトプットはトポロジーグラフとして表記されている。
詳しい図示は省略するが、各項目にはリンクを張ってあるので、更に詳しく知りたい情報については、クリックするだけでよい。
またアウトプットは、トポロジーグラフ化手段によって、横長の長方形に収めるように調整されている。ユーザは、必要の応じて拡大縮小の命令を操作し、部分的に拡大したりすることができる。
(図11)
図1から図10までは、「ハワイ旅行」を検索のメインテーマ(センターキーワード)とした例を説明してきたが、検索のセンターキーワードは、旅行に限られない。たとえば、不動産を検索する場合にも用いることができる。
たとえば、東京へ転勤が決まったユーザとしては、引っ越し先を探さなければならない。そのような場合には、勤務先の住所、通勤手段、教育機関、医療機関、買い物や食事といったコンセプトパラメータを入力するとともに、階層総数を指定して検索用データを作成する。
提供されたフォーマットには、テキストデータにて入力されたユーザによるデータをトポロジーグラフ化するプログラムが含まれており、「東京の賃貸不動産」を中心とした放射状の検索データに変換して、ユーザのクライアントPCの出力画面に表示する。そして、それをユーザが確認したらサーバに対して送信する。
このプログラムも、クライアントPCがあらかじめ有していてもよいし、サーバが有していてクライアントPCとサーバとの間でデータのやりとりをすることとしてもよい。
(図12)
図12は、図10のように、ユーザがインプットする検索用データと、サーバによってアウトプットされるトポロジーグラフとを概念的に示したものである。
ここで一次検索に用いる既作成データベースには、予めタイアップ企業の情報が優先的に出力されるように格納されている。そのため、勤務先の住所に対しては、タイアップ企業となっている不動産会社である「S不動産」や金融機関である「L銀行」が表示される。クリックすれば、その住所地に最も近くの支店名、住所、連絡先などが表示される。
同様に、「通勤手段」に対しては、タイアップ企業である「M電鉄」や「P引越サービス」が放射状に表示される。「教育機関」に対しては「N学習塾」が、「医療機関」に対しては「Q総合病院」がそれぞれ表示される。「買い物、食事」については、「Mデパート」、「Rショッピングセンター」が表示され、更にMデパート内に支店がある「Tイタリアン」やRショッピングセンター内で開店した「Jフレンチ」といったレストランも更なる階層下に表示される。
上記の検索システムに基づいて、以下のようなサービス(コンシェルジュサービス)を提供することも実現される。
コンシェルジュサービスは、大きくは、テンプレートトポロジーグラフの準備、およびテンプレートトポロジーグラフの成長の2ステップから構成される。
サービスを受けるユーザが自分の最小限の要望を表現したトポロジーグラフをサーバに送信すると、その要望に適合するテンプレートトポロジーグラフがテンプレートDBから選択されてユーザの下に送信される。ユーザはそのテンプレートトポロジーグラフを確認後、自らの追加要望とともにサーバにこのテンプレートトポロジーグラフ送信する。テンプレートトポロジーグラフを受信したサーバはインターネットまたはこれと同等の情報を有するDBにアクセスして、トポロジーグラフに接続すべき関連情報を推論しつつ検索する。得られた検索結果はトポロジーグラフに対して適宜接続され、こうして成長したトポロジーグラフはサーバの返信手段によってユーザが使用するクライアントPCへと送信される。
以下に上記プロセスを詳説する。
まずテンプレートトポロジーグラフの準備について説明する。
図13はテンプレートトポロジーグラフの作成プロセスを概念的に示した概略図である。
ユーザは、自らの要望を簡単な文章で入力する。たとえば「急に東京に転勤が決まった。勤務地は新宿で、通勤時間は30分以内、家賃の予算は12万円、2DKは欲しい。」と言った具合である。この文章をサーバへと送信すると、サーバが有するクエリトポロジーグラフ作成手段はこの文章を構文解析し、「東京の賃貸不動産」を核として、「家賃12万円以内」、「新宿から30分以内」、「2DK以上」を第一次パラメータとするクエリトポロジーグラフを作成する。
送信手段を介してクライアントPCの表示画面上に表示されたクエリトポロジーグラフに対して、ユーザは概念距離を適宜調整することで、複数の一次パラメータにおける自らの優先順位を表明する。概念距離の調整については説明済みなのでここでは省略する。
概念距離が調整されたクエリトポロジーグラフをサーバの受信手段が受信すると、テンプレート選択手段は、このクエリトポロジーグラフを入力として、テンプレートDBに蓄積されるテンプレートトポロジーグラフを検索する。そして、ふさわしいと判定されるテンプレートトポロジーグラフを選択して、送信手段を介してクライアントPCに送信する。
テンプレートDBには多数のテンプレートトポロジーグラフが目的によって分類されて蓄積されている。その区分とは、たとえば「引越」、「旅行」、「就職」、「資格」、「趣味」と行った具合である。「引越」の区分におけるテンプレートトポロジーグラフの一例としては、「メゾン経堂」という物件名を核とし、一次パラメータとして「物件情報」、「周辺情報」、「費用」を有し、「物件情報」には「マンション」、「二階角部屋/三階建て」、「2DK」、「南向き」、「平成2年築」が接続しており、「周辺情報」には「経堂駅徒歩10分」、「コンビニ至近」、「公園近い」が接続しており、「費用」には「家賃11万8千円」、「敷金2ヶ月」、「礼金1.5ヶ月(0.5ヶ月分ディスカウント)」「引越代金2割引」が接続しているものを挙げることができる。
このテンプレートDBに蓄積されるテンプレートトポロジーグラフは、本サービスのタイアップ企業や教育機関が提供する情報に基づいて構築される。したがって、テンプレートトポロジーグラフにはタイアップしている企業等の特典情報が含まれている。たとえば、上述の例では、「礼金1.5ヶ月(0.5ヶ月分ディスカウント)」や「引越代金2割引」が特典情報に該当する。
テンプレート選択手段が実行する検索プロセスの基本構成は従来技術に基づくことで構築可能である。しかし、この検索においては、ユーザによって概念距離として表明された重要度によって検索条件の重み付けを行う。たとえば、先の引越の例を用い、クエリトポロジーグラフにおいて「家賃12万円以内」の概念距離が特に短く、「2DK以上」の概念距離が他より長いとする。
この場合には、検索において「家賃12万円かつ通勤30分以内かつ2DK以上」の条件を満たす物件が見出せない場合には、まず「2DK以上」の条件を緩和して「2K」や「1DK」の条件として他の条件を満たす物件を探す。それでも見出せない場合には、「2K」や「1DK」の条件にしたまま、「通勤30分以内」をたとえば5分刻みで緩和しながら「家賃12万円」を満たす物件を探す。この様に概念距離を反映した検索を行うことで、テンプレートの段階でもユーザの要望に適することが実現される。
こうしてテンプレート選択手段は、複数の、たとえば5つのテンプレートトポロジーグラフをテンプレートDBから選び出し、クライアントPCへと送信できるようにする。
こうしてテンプレートトポロジーグラフの準備が完了する。
続いて、テンプレートトポロジーグラフの成長について説明する。
テンプレートDBから選択されたテンプレートトポロジーグラフはいわば万人向けの情報であり、ユーザの特別な要望事項や志向が反映されたものではない。そこで、インターネット上に公開されている情報からユーザの要望や志向を反映した情報を探索して、これらの情報をテンプレートトポロジーグラフに接続させて、トポロジーグラフをカスタマイズする。
このプロセスは以下のように進められる。
まず、サーバが有する成長フォーマット表示制御手段が、トポロジーグラフ成長用入力フォーマットをクライアントPC上に表示させる制御を行う。この入力フォーマットはテンプレートトポロジーグラフの区分に応じて予め複数種類作成されており、サーバが有する記憶手段に記憶されている。成長フォーマット表示制御手段は、クライアントPCへと送信されたテンプレートトポロジーグラフの区分を判定し、その区分に応じた入力フォーマットを選択し、記憶手段からそのデータを取り出して送信手段を介してクライアントPCへ送信する一連の作業を制御する。
「引越」を例にすると、以下のような入力フォーマットが表示される。
1.引越希望日、入居希望日
2.現在の住所、引越荷物送付住所
3.居住予定人数、構成(性別、年齢)
4.他の勤務先、通学先
5.医療関連情報
6.趣味
7.好物
8.その他(フリースペース)
これらの情報が記載された入力フォーマットを受信したサーバにおいて、検索条件作成手段が入力フォーマットに基づいて検索条件を作成する。この段階で、人工知能を用いたユーザの要望の推論がなされることが望ましい。
たとえば、引越希望日と入居希望日とに数日のずれがある場合には、この間の宿泊が必要と判定し、勤務先である新宿の近傍の宿泊施設についての情報を検索するための検索条件を作成する。
また、子供がいる場合には、その年齢から転校手続の必要性を判定し、必要と判定したときには当該物件を学区内に含む学校を検索する検索条件を作成すると共に、手続情報を検索するための検索条件を作成する。
さらに、医療関連情報や趣味、好物の欄に記載があれば、近接する医療機関(たとえばカイロプラクティック)、趣味を実現するために必要な施設(たとえばテニススクール)、好物を提供する飲食店(たとえば本格手打ち蕎麦屋)の情報を検索するための検索条件を作成する。
フリースペースに記載がある場合には、これを構文解析・意味解析し、その結果に基づいて検索条件を設定する。
さらには、ユーザごとの本サービスの利用履歴を蓄積する記憶手段にアクセスして、当該ユーザの利用履歴情報からユーザの好みに係る情報を取り出し、その情報に基づいて検索条件を作成しても良い。
たとえば、かつて当該ユーザが本サービスを使って現在の居住地近傍のワイン専門店を探して高級ワインを複数購入したことがあり、この情報が利用履歴として蓄積されている場合には、近傍のワイン専門店を探すための検索条件を追加してもよいし、ワイン保管サービスを行っている業者を検索する検索条件を追加してもよい。
なお、こうして作成された各検索条件について、条件を象徴的に示す言葉が一次パラメータとして決定される。
こうして各テンプレートトポロジーグラフについて複数の検索条件が作成されると、これらの条件を入力として、検索手段がインターネットまたはこれと同等の情報を有するデータベースを検索し、一次検索結果を作成する。
これらの検索結果を入力として、高次パラメータ作成手段がユーザの興味や志向を反映させながらトポロジーグラフに接続すべきパラメータを決定し、概念距離算出手段がこれらのパラメータを入力として各パラメータの概念距離を算出する。これらの各手段が行う処理の詳細については説明済みであるから省略する。
以上のプロセスによって、新たな一次パラメータ、高次(二次)パラメータ、およびパラメータ間の概念距離が決定されるので、これらを入力として、トポロジーグラフ化手段は新たなトポロジーグラフを作成する。具体的には、入力されたテンプレートトポロジーグラフに適宜一次パラメータ、二次パラメータを適切な距離で接続させる。
作成されたトポロジーグラフは、返信手段を介してクライアントPCに送信される。
トポロジーグラフを受信したユーザは追加されたパラメータを見つつ、適宜概念距離を調整し、調整後のトポロジーグラフを再度サーバに送信する。サーバは受信した調整後のトポロジーグラフをベースにして新たに検索条件を作成し、トポロジーグラフを成長させる。この段階のプロセスの詳細は説明済みなので省略する。
このようにして、ユーザは複数のテンプレートトポロジーグラフを成長させながら自ら要望を最も具備するトポロジーグラフを選択して、引越先を決定することになる。
(図14)
ところで、センターキーワードが特殊であり、検索対象データの数が限られている場合や、期間を限定するなどによって、センターキーワードの他に二次パラメータまでを設定せずに、本発明に係る検索システムを利用することが可能な場合がある。
たとえば、「最近一週間の三大紙による社説でどんなことが話題になったのか?」といった検索をしたい場合には、図14に示すような検索を実行させる。すなわち、センターキーワードとして「社説」を、一次パラメータとして「朝日新聞、毎日新聞、讀賣新聞」を、限定条件として「最近一週間」を、それぞれ指定する。
検索結果としては、一次パラメータを中心としたニュースのキーワードを散りばめたトポロジーグラフが表示されることとなる。
もし、これまでの検索手法によって、「最近一週間の三大紙による社説でどんなことが話題になったのか?」といった漠然とした課題に対するアウトプットを得ようとしたら、一週間分の各新聞の社説を収集し、検索者自らが読みこなしてキーワードを抽出するか、社説のタイトルを機械的にピックアップする。そして、ソフトウェアのディレクトリ機能などを用いてアウトプットを作成しなければならないであろう。
(図15)
図15は、図14で得てアウトプットを用いて、センターキーワードを入れ替えて、トポロジーグラフを再構築させた場合を示している。
この図示例では、「朝日新聞」の直下の階層である「中国」をセンターキーワードに入れ替える命令をしたものである。ユーザは、自らのクライアントPCの出力画面において、ポインタ操作によって「中国」という言葉をドラッグして「社説」というセンターキーワードと入れ替える。するとサーバは、「中国」を中心に、一週間分の各新聞の社説がどのようなキーワードを用いて書かれていたか、というトポロジーグラフを再構築する。
この場合、サーバが再構築の対象とするデータは、「一週間分の各新聞の社説」に限定している。そして、「構文解析、意味解析」の結果として、「中国」に関わるキーワードを抽出し、トポロジーグラフに組み直すのである。このように、いったん得たアウトプットをユーザが再加工の指示をして活用することもできる。
図14および図15のような例を通じ、ユーザは自らが感じていた「漠然と欲していた情報」が「中国についての最近の新聞による見解」が知りたかったという検索目的の明確化を得る。同時に、その検索目的に応じての「キーワードによる整理されたトポロジーグラフ」というアウトプットも得ることができる。
(図16)
図16は、図10に示した実施形態におけるアウトプットを三次元的にしたバリエーションを示したものである。
ユーザが入力したインプットにおいて、旅行の予算については制限条件があったものの、旅行の時期についての制限条件がなかったような場合には、季節によって異なる旅行代金を反映して、異なるプランを複数のシートによるアウトプットしている。図示例では3つのアウトプットを出力したイメージを表しているが、更に細かく出発日を一日単位で出力したとすれば、時間軸について連続性が出てくるので、アウトプットが三次元により近づくこととなる。
(図17)
図17は、図12に示した実施形態におけるアウトプットを三次元的にしたバリエーションを示したものである。
ユーザが入力したインプットにおいて、契約日についての制限条件が無かった、あるいは緩かった場合として、契約日によって異なるプランを複数のシートによるアウトプットしている。この図示例でも3つのアウトプットを出力したイメージを表しているが、更に細かく契約日を一日単位で出力したとすれば、時間軸について連続性が出てくるので、アウトプットが三次元により近づくこととなる。
(三次元的なアウトプットのバリエーション)
複数のシートによるアウトプットではなく、時間に伴う変化が連続的なアウトプットの場合、アニメーションのように所定時間の中で動画的に表示させてもよい。シート状の出力の場合には、複数のシートを比較検討するのに適しているが、時間に伴う変化の推移にアウトプットの本質がある場合には、アニメーション表示が優れている。
以下、概念検索をマーケティングの分野に適用した場合の実施形態について、図面を用いつつ説明する。本実施形態で使用する図面は、図18から図33である。
従来のマーケティングデータに関する情報処理技術や検索技術では、漠然としたテーマに対する検索を行う際に、以下のような問題点があった。たとえば、「開発しようとしているソフトウェアのコンセプトで、どれくらいの顧客が見込めるのか。」といった場合を例題として想定する。
この例題では、当該ソフトウェアのコンセプトをキーワード化し、似たような機能のソフトウェアが提供されていないかを検索する。その上で、価格を比較検討し、その価格および機能を勘案して仮想顧客を想定し、その仮想顧客の数がどれくらいなのか、その仮想顧客の何パーセントが購入してくれそうなのか、といった手順が想定できる。
しかし、このような手順を踏まずに調査結果を得たいという要望は、潜在的に少なくない。なぜならば、検索結果を用いての比較検討、仮想顧客の想定といった作業が中間に入るため、手間が掛かる。
本実施形態によれば「検索したい類似概念(たとえばマーケティング情報)に適した検索フォーマット」が提供されるとともに、検索結果に基づいた次の検索条件設定を簡易化できる検索技術が提供される。
(図18)
図18は、本発明の実施形態に係る検索システムの検索処理を行うサーバと、その検索システムをインターネットなどのネットワーク経由で利用するクライアントPCとの関係を図示したものである。
サーバからクライアントPCに対して、フォーマット提供手段が検索フォーマットおよびアシストプログラムを提供し、ユーザは自らに係るクライアントPCの受信手段にて受信する。なお、このアシストプログラムはあらかじめクライアントPCにインストールされていてもよいし、サーバが有していてクライアントPCとサーバとの間でデータのやりとりをすることでデータ処理を進めることにしていてもよい。
クライアントPCは、受信した検索フォーマットおよびアシストプログラムを用いて検索用データを作成し、サーバに返信する。返信された検索用データは、サーバの検索用データ受信手段によって受信され、フレーム化手段へと入力される。
フレーム化手段は、受信した検索用データにおけるセンターキーワードおよび一次パラメータから検索概念を算出する。また、検索対象についても、検索用データから算出された検索概念と比較できるように検索対象概念を算出する。次に、概念比較手段が、算出された検索概念と検索対象概念とを比較する。概念比較手段の機能についても後述する。
そして、ソート手段は概念比較手段の比較結果について近似度が高い順にソートする。そのソート手段がソートした比較結果リストに基づいて、分類手段が検索結果データを作成する。そして、その分類手段が作成した検索結果データを、返信手段がクライアントPCに返信し、クライアントPCは出力手段を使って検索結果データをユーザが利用可能とする。
前述の「フレーム化手段」とは、人工知能エンジンが検索用データを用いて検索対象に対して推論するための準備をし、あるいは推論を実行するための手段である。検索用データが自由記載のフォーマットであれば構文解析、意味解析手段や、シソーラスの辞書群などである。
「フレーム化手段」には、フィルタリング処理を介することもある。「フィルタリング処理」には、人工知能の分野に用いられる推論を用いる。たとえば、「否定演算」のようにセンターキーワードや制限事項からユーザが必要とすることがあり得ないと想定される集合を外してしまう処理や、「定言命題」を用いることによってセンターキーワードや制限事項から推論してユーザが不要とすると想定される集合を外してしまう処理である。
「概念比較手段」は、本実施形態では、以下のような演算を行って算出することとしている。すなわち、シソーラスを集めたデータベースを用い、センターキーワードや制限事項に用いられた言葉を多次元のベクトルとする。そして、概念距離を算出したい二つの言葉それぞれの多次元ベクトルの内積を算出する。この内積を用いて概念距離を決定し、概念の比較を行う。たとえば、算出された積が完全一致であれば1.0であり、概念距離はゼロである。このとき、同一の概念と判定される。なお、概念比較の演算手法については、上記手法に限られず、他の公知手法を持ちてもよい。
検索の対象は、インターネット上から探してくるのでも良いが(図中では点線で示している)、インターネット上のデータから構築したデータベース(図中では、「既作成DB」と記している)を用いることが多い。比較対象となるデータが無限に存在しては、検索に多くの時間が掛かってしまうからである。ただし、時間を掛けても良い検索もあり得るので、その場合は、検索対象数や検索に要する最大時間などを設定するなどして、インターネット上での検索を実行させても良い。
換言すれば、本願発明は先行技術と異なり、限られたデータベースの中から検索結果を出すだけではなく、インターネットのように開いたデータ群から検索結果を得ることも可能である。
(図19)
図19は、サーバのフォーマット提供手段が提供した検索フォーマットやアシストプログラムの機能を示している。
検索フォーマットは、検索テーマを決定すること以外は、200文字以内の自由記載としている。ここでは、ユーザが個人情報保護法のe−ラーニングで使用する教育ソフトウェアを企画するに際してのマーケティング調査を、検索テーマとしている。
この検索テーマおよび自由記載部分をユーザに入力してもらう。すると、アシストプログラムがその内容をトポロジーグラフに変換し、クライアントPCの出力画面に表示する。
なお、図中、検索用データ受信手段がクライアントPCにフィードバックすることを点線で示しているが、これについては、アシストプログラムの機能として後述する。
(図20)
図20は、入力フォーマットとアシストプログラムとの関係を、クライアントPC側から概念的に示している。
入力フォーマットに基づいて、図20上半分に図示するようなテキストデータが入力されたとする。そのテキストデータを、構文解析、意味解析などのアシストプログラム機能によって図20下半分に図示するようなトポロジーグラフに変換する。
演算処理を必要とする部分は、クライアントPCの処理能力に頼ると時間が掛かるので、最低限の機能のみをクライアントPCに送信し、演算処理の多くはサーバで行うようにしている。ただし、検索対象となるデータがクライアントPCに格納されているような場合には、クライアントPCに演算処理をさせることとしてもよい。
(図21)
図21は、入力フォーマットとアシストプログラムとの関係を、サーバの内部処理の点から示している。すなわち、構文解析、意味解析では、クラス・オブジェクトとインスタンス・オブジェクトとが必要であり、ユーザには見せないがサーバでは、用意することとなる。
インスタンス・オブジェクトにおける「重要度」というパラメータは、トポロジーグラフにおけるノードの長さに反比例するようになっている。ここでは、4つの項目が全て「0.5」とした。
(図22)
図22では、アシストプログラムによってクライアントPCに提示されたトポロジーグラフをユーザが操作した場合を示している。
図22の上段に示したトポロジーグラフが、ユーザの端末装置に表示されたとする。このトポロジーグラフにおけるセンターキーワードとパラメータワードとの関係は前述したように距離の遠近で表現されている。更にその距離の遠近は、ユーザの操作によって変更されうる。
ユーザが操作した後の一例を図示したのが、図22の中段である。今回のマーケティング調査においては、「新人法務社員」や「上場企業」という言葉の優先度は相対的に低く、「価格にシビア」や「企業倫理に厳しい」といった言葉の優先度は相対的に高いと判定し、各ノードの長さを変更した。
その変更が決定されると、サーバ内部におけるインスタンス・オブジェクトにおける「重要度」というパラメータを「0.5」から、「0.3」、「0.4」、「0.9」、「0.8」にそれぞれ変更した旨を反映させるが、図22の下段ではその様子を示している。
(図23)
図23は、サーバがエンジニアの操作によって予め用意しているか、あるいは自動作成(半自動作成も含む)されたクラス・オブジェクトとインスタンス・オブジェクトの一例を図示したものである。
(図24)
図24は、フォーマット提供手段が提供した検索フォーマットやアシストプログラムについての、他の実施形態について図示したものである。
ここでの検索フォーマットは、マーケティング対象に関して、最も理想的な対象を定義するように要求している。このようなフォーマットを提供することで、検索用データの作成負担をクライアントPCおよびサーバの双方で軽減し、ユーザが意図とする検索結果を得やすくする。
検索フォーマットを用いて入力手段から入力された検索用データは、トポロジーグラフに変換される。この変換はアシストプログラムが実行するが、演算はサーバかクライアントPCのいずれでもよい。
作成されたトポロジーグラフは、図19で作成されたものと異なる。たとえばセンターキーワードが異なっている。
さて、作成されたトポロジーグラフは、サーバからフィードバックされ、クライアントPCによって変更修正が行える。その変更修正が適切に行われれば、検索結果の精度が高められる。
なお、変更修正の履歴はクライアントPCにて蓄積し、ユーザの属性データの一部として、思考法分析、趣味志向分類などに用いられる。
作成されたトポロジーグラフは、ユーザとしては、想定した概念に近い企業がマーケティングにより見込み顧客となると予測できるし、ユーザが想定した概念から最も遠い企業は顧客ターゲットからは外れていると予測できる。
また、サーバは、テキスト表現から導き出せる概念を基準とすることで、様々な情報から算出する企業の概念との比較を行いやすい。
更には、検索用データの作成が容易化し、且つブレのない検索用データができた場合には、そうでない場合に比べて検索結果データが期待に沿うこととなる。
(図25)
図25は、検索対象に対して働きかけるフレーム化手段の機能を概念的に示したものである。
既にサーバが企業データを蓄積して「既作成DB」を備えているとする。そのデータベース内には、図25の上段に示すように、企業毎にある程度整理された情報が蓄積されているとする。
このように企業毎の情報に対して、図24の下段に示した概念との比較が行いやすいように、フレーム化手段がフレーム化を施す。ただし、これはサーバの内部で実行されていることであり、ユーザに開示する必要がないので開示されない。あくまで、サーバの内部を概念的に示しただけであり、図示を省略したインスタンス・オブジェクトが作成されている。
フレーム化手段は、「既作成DB」の中に蓄積されている企業の全てについて、フレーム化を行う。
(図26)
図26は、概念比較手段およびソート手段の機能を概念的に示している。
概念比較手段は、検索用データとフレーム化手段によって処理された検索対象のひとつとを比較し、比較結果を数値化して記録する。全ての検索対象について概念比較が終了したら、ソート手段が数値化された比較結果をソートする。
(図27)
図27は、全ての検索対象が99あったとしてのソート結果と、そのソート結果に対する分類手段の機能とを図示している。
分類手段は、上位の約10%を「確実に買いそうな企業群」とし、上位約20%を「買いそうな企業群」とし、下位約10%を「全く買わないと思われる企業群」と分類することとしている。この三段階の分類手法は、サーバ側で設定していても良いし、ユーザが設定できるようにしても良い。たとえば各段階の%を変更すること、段階数とその%から設定可能とすること、などである。
(図28)
図28は、新ソフトのコンセプトをインプットしてサーバから得られるソート結果を更にインプットして得られるアウトプットをイメージ的に図示したものである。
まず、図27に示したアウトプットを得る。続いて、「確実に買いそうな企業群」に関するフレーム化されたデータを複数(全てでも良いし2,3のデータでも良い)インプットする。すると、確実に買いそうな企業群の傾向を把握することができるアウトプットを得ることができる。
「買いそうな企業群」、「全く買いそうもない企業群」についても同様に、傾向を把握するためのアウトプットを得ることができる。
(図29)
図29は、検索対象が極めて多い場合に、検索効率を上げるための手法を概念的に示したものである。
すなわち、検索対象を予め所定のデータベースに格納しておくとともに、そのデータベースに格納された検索対象を複数のグループに分類してグループ化しておく。
たとえば、Sカンパニーに類似する会社は、Sカンパニー類似群として格納しておく。同様に、N製作所のグループ会社は、N製作所類似群として格納しておく。そして、フレーム化手段による検索対象のフレーム化処理においては、各類似軍の代表であるSカンパニーやN製作所のみについて行い、概念比較もそれに基づいて行う。
ソート手段または分類手段、あるいは他の出力において、Sカンパニー類似群は合計で7社あるので7倍する、N製作所類似群は合計で12社あるので12倍する、といった演算を行って出力するのである。算出された検索対象概念は、グループの代表であるから正確性に欠ける可能性があるが、大量のデータを大まかに処理する場合には適している。
なお、本実施例では、ソフトのマーケティングツールとしてサーバを用いた場合について説明したが、検索用データを変更することで、買収や合併、提携など、事業を進める上でつながりを求める候補企業を企業データから抽出することもできる。この場合には、買収等の条件が理想的な仮想企業を想定し、その事業概要を表すトポロジーグラフを作成する。このトポロジーグラフは、会社概要情報、製品・提供サービス情報、生産関連情報、販売関連情報、財務情報、知的資産情報、人事労務情報などをパラメータとして含むことが望ましい。
(図30)
図30は、インプットされた検索用データにおけるテーマが変更されたアウトプットが得られる場合を示したものである。いわゆる「検索によるコンシェルジュ機能」を実現したものである。
ユーザは、サーバを用いてハワイ旅行に関する検索を行い、検索結果を得たとする。その検索結果データを用いて再度検索を行うために、検索用データを再作成したり、そのフィードバックを得たりして、検索用新データを送信したとする。
一方、サーバは、ユーザが入力したデータやそれに基づく検索結果などを全て蓄積している。その蓄積結果を用いて、サーバは、ユーザが検索テーマとしているのは「ハワイ旅行」ではなく「ダイビング×海外旅行」であると推論する。その結果と、ユーザが入力した「旅行予算」という制限事項とから、検索テーマを「グアム旅行」に変更した検索結果データを返信するのである。
このような「検索によるコンシェルジュ機能」により、ユーザとしては、本人も気付いていなかった真の目的に気付く場合がある。
(図31)
図31は、図27に示した実施形態のアウトプットを三次元的にしたバリエーションを示したものである。
全ての検索対象に関するデータ群が年度ごとに区分できる場合において、ソート結果を年度ごとにまとめ、三次元的にアウトプットしている。このソート結果を過去三年分連続して比較検討すれば、年々ランキングが上がっている企業には確実性が高いと想像できるし、年々ランキングが下がっている企業では確実性が低くなりつつあると想像できる。
(図32)
図32は、図30に示した実施形態のアウトプットを三次元的にしたバリエーションを示したものである。
ユーザが入力したインプットにおいて、旅行の予算については制限条件があったものの、旅行の時期についての制限条件がなかったような場合には、季節によって異なる旅行代金を反映して、異なるプランを複数のシートによるアウトプットしている。
これによれば、もっとも旅行料金が高い傾向にある夏休みの時期や冬休みの時期には「ハワイ旅行」が「グアム旅行」になっているかもしれないが、旅行料金が比較的安い「秋プラン」では「ハワイ旅行」が提案される、といったこともあり得る。
(三次元的なアウトプットのバリエーション)
複数のシートによるアウトプットではなく、時間に伴う変化が連続的なアウトプットの場合、アニメーションのように所定時間の中で動画的に表示させてもよい。シート状の出力の場合には、複数のシートを比較検討するのに適しているが、時間に伴う変化の推移にアウトプットの本質がある場合には、アニメーション表示が優れている。
このように、本実施形態では、マーケティング情報を収集する場合、分野や分類が異なるフィールドにおける類似概念を探したい場合、コンサルティング的あるいは執事的な検索結果を欲する場合などに適用可能な発明が開示されている。
以降、概念検索による情報をトポロジーグラフとして表示するシステムに係るクライアントPCおよびサーバの動作を、ユーザやネットワークとの関係で示したフローチャート(図33から図40)および関連図(図41から図46)を用いて説明する。
(図33)
図33は、ユーザからの要望データ入力からサーバがクライアントPCからのデータを受信するまでの動作がフローチャートとして示されている。
まず、ユーザはクライアントPCにプリセットデータを入力する(S01001)。プリセットデータとはクライアントPCとサーバとが協働して検索を行うに当たっての前提情報であり、以下のようなものが含まれる。各データの意味についての説明はフローチャートで関連する動作(ステップ)の説明とともに行う。
・一階層下の概念ノードの表示数(最大値)
・一階層下のURLノードの表示数(最大値)
・一階層下のノード表示数とリンク長との関係
・一回の検索で抽出する文セグメントの最大値
ユーザによって入力されたプリセットデータはクライアントPCに入力され、クライアントPCはこのデータに基づいて、クライアントPC内部で保持すべきデータやサーバに送信すべきデータを作成する(S01101)。
ユーザから要望データがテキストデータとして入力される(S01002)と、入力されたテキストデータに対して、形態素解析(S01102)および係り受け解析(S01103)をクライアントPCは行う。こうしてテキストデータの意味解析が可能な状態になり、クライアントPCは推論を含む解析を行ってクエリを作成する(S01104)。
続いて、クライアントPC内で作成されたサーバに送信すべきプリセットデータおよびクエリを、ネットワークに送信可能な状態にデータ変換する(S01105)。この変換処理は、データの暗号化や圧縮、パケット化を含んでもよい。また、この変換処理の詳細な設定情報がプリセットデータに含まれていてもよい。
クライアントPCは、ネットワークを介して接続されるサーバへとこの変換データを送信する。なお、この送信データはサーバへと直接送信されなくてもよい。たとえば、いったんクライアントPC内のメモリなどの記憶装置に格納されてもよいし、ネットワークを介して接続される別のコンピュータの記憶装置に記憶されてもよい。
データ送信が終了したら、クライアントPCは、サーバからの検索結果データを受信可能な状態とする処理を行う(S01107)。その後、作成したクエリに関して志向性処理を行う(S01108)。この志向性処理については後述する。
一方、クライアントPCからデータを受信したサーバは(S01201)、その受信データをその後の処理が可能なようにメモリ内に展開したり、バックアップとして適切な記憶装置に格納したりする(S01202)。
(図34)
引き続いての処理は図34を用いて説明する。
サーバは検索を行うための前段階として以下の処理を行っている。
まず、ネットワーク201(ここでは一例としてインターネットとして説明を行う。)上の複数のURL202にアクセスして、各URLが保有するテキストデータを収集する指示を行う(S02301)。
次に、この指示に基づいて収集されるデータに対して、その長さや形式を整えるクレンジングを行う(S02302)。収集されたテキストデータはこのクレンジング処理によって複数の文ブロックに変換される。
一例として、以下の文をクレンジング処理する。
(入力文)
「東京都心で初雪、平年より22日も早く強い寒気の影響で、東京都心では11日夜、初雪を観測した。気象庁によると、都心の初雪は平年より22日、昨年より18日早い。12日も冷え込むと見られるが、積雪はない見込み。冬型の気圧配置はこれからも続き、同庁によると、今後約1週間は寒い日が続くという。」
この入力文に対するクレンジング結果は以下のとおりである。
(文ブロック1)
「東京都心で初雪、平年より22日も早く」
(文ブロック2)
「強い寒気の影響で、東京都心では11日夜、初雪を観測した。」
(文ブロック3)
「気象庁によると、都心の初雪は平年より22日、昨年より18日早い。12日も冷え込むと見られるが、積雪はない見込み。」
(文ブロック4)
「冬型の気圧配置はこれからも続き、同庁によると、今後約1週間は寒い日が続くという。」
この文ブロック群はそれぞれ元となるURLの情報を関連付けられて格納されており、各文ブロックは対応するURLの目次(インデックス)の役割をすることができるようになっている。
サーバ内またはサーバに接続されたコンピュータ内の記憶装置に設けられたデータベース(インデックスDB)203に、クレンジング処理により生成した文ブロック204をURLの情報を保持した状態で格納する。
以上のようにインデックスDB203を整備した状態で、以下の検索処理をサーバは行う。
まず、サーバ内のメモリからクエリデータを読み込み(S02201)、インデックスDB203内の文ブロック204を検索対象として概念検索を行う。
「概念検索」とは、キーワード同士の意味的な関連性を考慮した検索技術である。通常の検索のようにキーワードと一致する語句を検索するのではなく、キーワードの内容(Concept)で探すことを指す。検索対象となる文ブロック204の内容を判定した上で、検索キーワードと概念的にどの程度類似するかを定量的に算出して類似度とし、類似度が高いものを抽出対象と判定する。
まず、インデックスDB203に格納されている各文ブロック204について構文解析を行う。構文解析では、言語辞書データベース205に適宜アクセスして、おのおのについて多数次元で表現される概念空間におけるベクトル(以降、「概念空間ベクトル」と称する。)を算出する。この概念空間ベクトルは、ベクトル和のスカラー量が1になるように規格化しておくことで、その後の処理が容易になる。
クエリについても同様に概念空間ベクトルを求め、これとあらかじめ用意してある各文ブロックの概念空間ベクトルとのスカラー積を演算し、類似度を算出する。
次に、この類似度によってインデックスDB203に格納されている文ブロック204のソートを行い、類似度の高い文ブロックを抽出する(S02203)。抽出対象は上位n個(たとえば1000個)というように予め決定しておくことが、その後のデータ分類処理およびこれに引き続くデータ表示処理の関係で望ましい。本実施例では、この抽出最大数をプリセットデータとしてサーバが受信することとしている。サーバはメモリからこの最大値を読み込み、この数値に基づいて抽出数を決定する。
続いて、抽出された文ブロック群を概念的に類似する複数のグループに分類する(S02204)。各文ブロックは概念空間ベクトルとして表現されているため、概念空間における分布から近接する複数の文ブロックを一つのグループとしてまとめることが可能である。
このグルーピングの数は、プリセットデータとして入力される一階層下の概念ノードの表示数に基づいて決定される。この表示数の2倍から3倍の数のグループを作ることが望ましい。
そして、各グループに属する文ブロック群の代表的な概念を選択する(S02205)。この選択方法は、たとえば、各文ブロックの概念空間ベクトルの総和を演算してその要素が最大値となった概念を選択してもよい。または、各文ブロックにかかる概念ベクトルの要素のうちで最大の値を有する要素を抽出し、これらの要素でもっとも多頻出の概念を選択してもよい。
こうして各グループの代表として概念が選択されたら、クエリデータにかかる概念とその概念との概念距離を算出する(S02206)。ここで、概念距離は二つの概念の連想のしやすさを定量化したものであり、たとえば、言語としての概念の近さだけでなく、各グループに属する文ブロック数なども考慮して算出してもよい。または、時事情報を含むデータベースに基づいて各概念から連想される単語群を設定し、比較する二つの概念に属する単語群の関係を定量化して概念距離の演算に用いてもよい。その他、公知の手法を用いて算出してもよい。
以上の処理によって、概念ごとに、概念距離とその概念に属する文ブロック群とが決定される。また、各文ブロックには、概念ベクトルおよびクエリとの類似度ならびに由来となるURLを識別可能な情報が付随している。
これらの情報の一部をテーブル状データとして概念的に示したのが図43である。ここで、概念距離は0から1の範囲で設定されており、0に近いほど概念的に近接していることを示している。
サーバは、ネットワークを介して送信可能な情報にこのデータを変換して、クライアントPCへと送信する(S02207)。その処理内容は図33のステップS01105からステップS01107までの処理(以降、「送信処理」と称する。)と同様である。
クライアントPCはこのデータを受信すると(S02101)、そのデータに基づいてトポロジーグラフを液晶ディスプレイなどの表示手段に表示するためのデータを作成して、表示手段に出力する(S02102)。なお、ステップS02101の処理は、図33のステップS01201からステップS01202の処理(以降、「受信処理」と称する。)と同様である。
トポロジーグラフの一例を図44に示した。クエリの中心的概念がセンターキーワードとして表示されたノードの周囲に、3つのノードが第一階層ノードとして配置されている。この第一階層ノードのそれぞれには、概念検索の結果として得られた概念距離がもっとも短い(すなわち概念近似度がもっとも大きい)3つの概念がそれぞれ表示されている。センターキーワードのノードとこの3つのノードとはリンクによって連結されており、このリンクの長さ(「リンク長」)はサーバから受信したデータに基づく概念距離に基づいて設定される。詳細は後述する。
図44に示されるように、第一階層の各概念ノードの下位には4つのURLノードと3つの概念ノードが所定のリンク長で接続されて第二階層ノードを構成している。
これら第二階層ノードのうち、URLノードについては次のように決定する。各第一階層ノードの概念に帰属する文セグメントのうち、類似度が高い上位5個の文セグメントを選択し、これらの文セグメントを含むURLを表示対象ノードとして決定する。なお、第一階層のノードとURLノードとの距離は、該当する文セグメントの類似度を反映して設定される。
一方、第二階層をなす概念ノードについては次のように決定する。各第一階層ノードに分類された文セグメントを対象として概念のグルーピングを再度行い、概念距離が最も短い概念を3つ選択して表示対象ノードと決定する。第一階層ノードと第二階層の概念ノードとの距離は概念距離に基づいて設定する。この概念のグルーピングおよび概念距離の設定はクライアントPCが行ってもよいし、あらかじめサーバが行っていてもよい。サーバが行う場合には、ステップS02206の後に、第一階層の概念ノードごとに関連付けられた文セグメント群を対象としてステップS02204からステップS02206の処理を行うことになる。
なお、第一階層のノード数である3、ならびに第二階層の概念ノード数(3個)およびURLノード数(4個)は、プリセットデータに基づいて決定されている。
こうして表示処理が終了したら、ユーザからの入力待ち状態にするための処理を行う(S02103)。
(図45、図46)
図45に各ノードと関連付けて記憶領域に格納されるデータの一例を、図46に各リンクと関連付けて記憶領域に格納されるデータの一例を示した。
ノードに関連付けられたデータについて、分類ごとに説明する。
「Key」の分類には、ノードの識別番号(ID)データが属する。いずれのトポロジーグラフに含まれるか、また、サーバのバッファデータを蓄積するデータベースにおけるデータとの関連などを把握可能に識別番号は設定される。
「種別」の分類には、センターフラグとノード分類フラグとが属する。センターフラグはセンターキーワードに関するノードであるか否かを識別するためのものである。また、ノード分類フラグは、概念を示すノードであるかURLを示すノードであるかを識別するためのものである。図44では、このノード分類フラグに応じてノードの表示を変更している。
「概念情報」の分類には、主概念コードおよび主概念名、ならびに副概念コードおよび副概念名が属する。主概念とは、概念空間ベクトルを構成する要素の中でもっとも大きな値を有する要素にかかる概念である。副概念は概念空間ベクトルにおける主概念要素以外の要素にかかる概念である。ノードが概念ノードの場合には副概念は存在しないが、URLノードの場合には単一の概念で構築されることはまれであり、副概念が多数存在する。
「階層情報」の分類には、主階層番号、分岐階層番号、階層分岐番号が属し、これらの番号によってトポロジーグラフ上の位置づけを判別することができる。
「位置情報」の分類には、上位ノードID、上位概念距離、上位リンク長、下位ノードID、下位概念距離、下位リンク長、中心距離、中心リンク長、座標fx、座標fyが属する。これらのデータによって、ノードの正確な配置を規定することができる。
ここで「概念距離」と「リンク長」との関係について詳説する。以降の説明では、「概念距離」は概念検索の結果得られる概念の関連性を定量化したものであって、たとえば図34におけるステップS02206の処理の出力結果であると定義する。
一方、「リンク長」とは、この概念距離のデータに基づいてトポロジーグラフ表示用データを算出したときに、ノード間のリンクの長さとして決定されるものである。
このリンク長は概念距離によって一義的に決定されるのではなく、後述するように上位側のノードについての志向性情報も考慮して決定されるものである。すなわち、概念距離は常識的または没個性的な情報に基づく概念の関連性を示すものであり、リンク長は個性が反映された概念の関連性を示しているものであるといえる。
「文書情報」の分類には、主キーワード、副キーワード、要約テキスト、URL、タイムスタンプ、ファイル種別が属する。これらの情報はノードがURLノードである場合に使用するものである。
続いて、リンクに関連付けられたデータについて説明する。
「Key」の分類には識別番号(ID)データが属する。
「位置情報」の分類には、始点ノードID、終点ノードID、方向、概念距離、リンク長が属する。方向とは、ノード間の情報の向きを示すもので、一般的には検索は下流側に進むため「2」となる。しかし、後述するトポロジーグラフの結合部分は結合部分のノードが対等なので「3」となる。また、推論を用いてあるべきセンターキーワードを作成するような場合には検索は上流に向かって行うことになるので「1」となる。
(図35)
図35は、図44におけるトポロジーグラフのURLノードのいずれかに対して、そのノードに付随して蓄積されている文書情報を表示する場合の動作についてのフローチャートである。
ユーザが行った表示URLの指定(S03001)に係る信号が入力されると、クライアントPCはその指定にかかるノードを判別する処理を行う(S03101)。そして、所定のノードと関連付けられている文書情報データをメモリまたは記憶装置から読込み(S03102)、そのノードにオーバラップするように文書情報を表示するための処理を行う(S03103)。
表示そのものは以上のプロセスで完了する。しかし、本実施例においては、このURLの文書情報を確認したことを志向性の情報として蓄積する志向性処理を行う。この志向性処理に必要な志向性データベースについての説明をまず行い、引き続いて志向性処理(ステップS03104以降)について詳説する。
志向性データベース301とは、概念空間ベクトルを構成する要素概念のそれぞれに対して主観的および客観的な重み付けを設定し、その情報をデータベース化したものである。
主観的な重み付けを「ステータス」と称し、「好き」、「嫌い」、「どちらでもない」の3水準を最低有する。
本実施例では以下の7水準としている。
・「オフ」:概念志向から完全に除外され、無条件にその概念の情報を排除する。
・「最低」:その分野に対して強いマイナスイメージを持っており、その概念の情報は基本的には見たくない。
・「低」:その分野に対してマイナスイメージを持っており、その概念の情報はあまり見たくない。
・「標準」:概念志向は中立であり、興味や関心を持っていない。初期設定値である。
・「高」:その分野に対してプラスイメージを持っており、その概念の情報に興味や関心がある。
・「最高」:その分野に対して強いプラスイメージを持っており、その概念の情報に特に興味や関心がある。
・「必須」:概念志向に必ず反映される。無条件にその分野の情報を出力対象とする。
これに対し、客観的な重み付けを「スコア」と称する。「スコア」の算出に当たっては次の仮定を設定している。
(1)検索作業やその後のブラウズ作業などを通じてユーザが取得した文書はユーザの志向を反映している。
(2)検索作業においてユーザが入力した文もユーザの志向を反映している。
(3)トポロジーグラフにおいてユーザがさらなる検索を求めたノードにかかる概念もユーザの志向を反映している。
この仮定の上に、削除などのネガティブな行為でない限り、ユーザが入力または選択した概念または文書情報にかかる概念をその時間とともに蓄積し、その累積データに基づいて概念ごとに定量値を算出する。
たとえば、バラの育成が趣味で、最近自家用車の調子が悪く買い替えを考えているユーザについて、「園芸」の概念のスコアと「自動車」の概念のスコアとを比較する。
バラの育成は趣味であるから、定期的に「園芸」に関連する検索式を入力し、検索の結果について丹念に内容確認を行う。このため、「園芸」についての累積度数の時間推移は強い正の相関を有する。この累積度数の時間推移グラフを概念的に示したのが図41(A)である。このとき、そのグラフについて直線回帰をとり、その傾きをスコアとする。
一方、「自動車」は調子が悪いときには修理の費用の調査や買い替えを念頭において熱心に情報収集を行う。しかし、修理が終わったり買い換えてしまったりすると、その後この概念にかかる情報の収集はほとんど行われなくなる。このため、累積度数の時間推移は図41(B)に示すように飽和状態を呈する。このため、直線回帰を取ると、その傾きは飽和状態にならない場合(図中点線)に比べて低くなる。
このように累積度数推移グラフの傾きをスコアとすることで、継続的な「趣味」と一時的な興味とを定量的に区別することが実現される。
なお、上記のスコアの計算方法は一例であり、他の方法を行ってもかまわない。
このようなステータスとスコアとを概念ごとに一覧としたデータの一例を図42に示した。図42では、食べ物に関連する概念の一部について記載したものであり、各概念に関連する言葉がキーワードとして列記されている。構文解析の結果、文章の中心的単語がこれらのキーワードであると判定されると、そのキーワードにかかる概念に属するものと判定される。
続いて、図35のS03104以降について説明する。
まず、表示URLに基づいてなる文セグメントを特定し、これらの概念情報、具体的には概念空間ベクトルのデータをメモリまたは記憶装置から読込む(S03104)。表示URLが複数の文セグメントを生成している場合には、それらのベクトル和を求め、そのスカラー量が1になるように均等に補正係数をかけたものを、そのURLの概念空間ベクトルとしてもよい。
URLの概念空間ベクトルの各要素とURLの指定がなされた時間とからなる志向性データを作成し(S03105)、これを志向性DB301に書き込む(S03106)。なお、図42にはスコアデータのみが表示されているが、そのスコアデータを算出するための累積度数の時間推移データが概念ごとに志向性DB301に格納されており、該当する概念それぞれの累積度数の時間推移データに、URL指定イベントを時間とともにデータセットとして追加する(S03107)。
続いて、データが追加された累積度数の時間推移データを読込んで、各概念のスコアの計算を行い(S03108)、新たなスコアデータを志向性DB301の所定の領域に書き込む(S03109)。
その後、入力待ちの処理を実行して(S03110)待機する。
(図36)
図36は、図44におけるトポロジーグラフの概念ノードおよびURLノードのいずれかに対して追加の検索を行う旨の指示をユーザが行った場合の動作についてのフローチャートである。
ユーザからの検索対象のノードの指定(S04001)に応じて、クライアントPCは指定に係るノードを判別し、検索対象となるノードの特定を行う(S04101)。そして、そのノードに関連づけられて格納されている文書データを読込み(S04102)、これを概念検索の入力条件となる文書データとする。
ここで、読み込む文書データとは、ノードがURLの場合にはURLの要約文書であり、ノードが概念の場合には概念名である。概念ノードの場合には、上位のノードについても参照し、上位ノードの要約文書や概念名も読み込み文書データに含めてもよい。このように上位ノードの情報も含めることで、実質的に絞り込み検索を行うことが可能となる。上位何階層のノードまで参照するかによって絞り込みの強さが決定されることになり、この情報はプリセットデータに含めておくか、検索ノードを指定するときに入力可能としておくことが望ましい。
続いて、確定された検索条件となる文書データをサーバに送信する処理を行い(S04103)、そのノードについて図35で示した志向性処理(S03104からS03109)を行ってこのユーザの指示履歴を志向性DB301に蓄積する(S04104)。
クライアントPCからの文書情報データを受信した(S04201)サーバは、そのデータについて概念検索を行う(S04202)。この処理は図34のS02201からS02206までの処理藤堂用の処理(検索処理)であるから説明は省略する。そして、検索結果をクライアントPCへと送信する(S04203)。
サーバからの検索結果データを受信した(S04105)クライアントPCは、そのデータを表示する処理を行う。ただし、ここでは、サーバでの検索結果をそのまま表示するのではなく、クライアントPCが参照可能な志向性DBの情報に基づいて一部のノードを表示しなかったり、ノード間のリンク長を変化させて表示させたりする志向反映表示処理を行う(S04106)。この志向反映表示処理については図37を用いて説明する。表示のための処理が終了したら、次のユーザの指示を入力可能な状態にする処理を行い(S04107)、待機状態に入る。
(図37)
図37は図36のステップS04106に示した志向反映表示処理の内容を示したフローチャートである。
まず、クライアントPCは、ユーザからの指示に基づいて志向性を反映させるための情報源となる志向性データベース(以降、「志向性DB」と称する。)の特定を行う(S05101)。このユーザからの指示は、プリセットデータに含まれていてもよいし、図36のステップS04001におけるユーザの指示の段階で入力されていてもよい。あるいは、この志向性DBを特定する処理の一つとしてユーザに志向性DBの確認処理を行ってよい。
志向性DBは図35の説明において述べたように、ユーザによる志向性の表明結果やトポロジーグラフに対する指示を記録蓄積するものであり、ユーザごとに固有のものである。この志向性DBをたとえばネットワークを通じて第三者に参照可能とすると、自らの好みや考え方を第三者に開示することが可能となる。逆に、ネットワークなどを通じて他人(第三者)の志向性DBを入手することで、その他人の好みや考え方を取り込むことが可能となる。一例としては、自らの志向性を反映したトポロジーグラフと他人の志向性を反映したトポロジーグラフとを比べることが実現される。他人を知るということは自らと他人との差異を把握することであるから、このような比較を通じてその他人を深く知ることができる。また、その他人がある分野のオピニオンリーダである場合には、その他人による文書を読むよりも明確に考え方を知ることが実現され、その分野の最先端の情報をより正確に得ることが可能となる。
図37においては、ユーザ本人の志向性DB301Aに加えて、2つの他人の志向性DB301B,301Cがネットワークを通じてクライアントPC内に格納されている態様を例示的に示した。この態様は一例であり、さらに多くの他人の志向性DBがクライアントPC内に蓄積されていてもよい。または、クライアントPC内には他人の志向性DBは蓄積されておらず、ネットワークを通じて他のクライアントPC内の志向性DBと接続されており、本クライアントPCの処理の過程でこの他の志向性DBを適宜参照可能とされていてもよい。
参照すべき志向性DBを特定したら、その志向性DBからステータスデータおよびスコアデータをクライアントPC内の作業用メモリに読み込む(S05102)。
続いて、ステータスデータに基づいて、検索結果として受信した概念のそれぞれについてフィルタ処理を行う(S05103)。フィルタ処理とは、表示対象とするか否かを判定する処理であり、受信した概念のステータスデータが「オフ」となっている場合には表示不要と判定する。
また、表示不要と判定されなかった概念に属するとしてグルーピングされている文セグメント群についてもフィルタ処理を行う。「オフ」となっている概念を“1”,それ以外を“0”としてなる概念空間ベクトルを作成し、この概念空間ベクトルと各文セグメントの概念空間ベクトルとの内積を計算する。内積が0とならない場合には、その文セグメントは「オフ」とされる概念の要素を含むものであるから、表示対象から除外する。
このフィルタ処理によって、サーバからの検索結果データの段階では表示対象とされていた概念が表示不要となる場合がある。そこで、あらためて概念距離に基づく序列を作成し、表示対象となる概念を決定する(S05104)。プリセットデータによって表示概念数が3個と規定されている場合には、あらためて上位3個の概念を表示対象とする。
また、各表示対象となる概念に属する文セグメント群についても同様の序列の再構築を行い、その結果に基づいて表示すべきURLの決定を行う(S05105)。なお、処理時間の短縮の観点から、ステップS05103において行った文セグメント群のフィルタ処理を、ステップS05104で表示すべき概念を決定した後のステップとして行い、表示対象概念に属する文セグメント群のみを処理対象としてもよい。
こうして表示すべき概念ノードおよびURLノードが確定したら、各表示ノードのリンク長を計算する(S05106)。このリンク長は、当該ノードの概念距離に加えて、そのノードにかかる概念のステータスおよびスコアを加味して算出される。
たとえば、概念距離に基づく成分をL(dic)、ステータスに基づく成分をL(st)、スコアに基づく成分をL(sc)とすると、リンク長Lは、
L = a*{L(dic)−b*L(sc)}/L(st)
のようにしてもよい。ただしaおよびbは定数である。
このように定義すると、ステータスという主観的な志向情報は概念距離やスコアのような客観的な情報よりも強い影響をリンク長に与えるようにすることができる。
上記の計算式以外の計算式に基づいて概念距離を設定してもかまわない。ステータスとして興味がある旨のデータが入っている場合にはリンク長が短くなり、逆に興味がない旨のデータが入っている場合にはリンク長が長くなるような設定とすればよい。また、スコアについても、スコアが大きいほどリンク長が短くなり、スコアが小さいほどリンク長が長くなる設定とすればよい。
以上のようにリンク長を決定したら、クライアントPCの表示装置にトポロジーグラフを表示させるための処理を行う(S05107)。そして、さらなるユーザの指示を受入可能な状態にして待機する(S05108)。
(図38)
図38は、ユーザが一つのノードを指定して、そのノードにかかる概念についてステータスを変更する場合の動作について示したフローチャートである。
ユーザからステータス変更の指示が入力されると(S06001)、クライアントPCはその指示にかかるノードの判別を行う(S06101)。
また、ステータスをどの様に変更するかについての指示についても判別する(S06102)。具体的には、先に示した7つのステータス(「オフ」、「最低」、「低」、「標準」、「高」、「最高」、「必須」)のいずれに設定するかを判別する。
続いて、志向性データベース601にアクセスして、変更にかかる概念のステータスを書き換える処理を行う(S06103)。
そして、志向性データベース601に改めてアクセスして、変更にかかる概念のステータスデータおよびスコアデータを読込み(S06104)、そのデータに応じて指定ノードの再計算を行い(S06105)、そのリンク長に基づいて表示を変更する処理を行う(S06106)。最後に、さらなるユーザの指示を受入可能な状態にして待機する(S06107)。
(図39)
図39は、図36と同様、ユーザからの指示に応じて志向性を反映した検索表示を行う動作を示すフローチャートである。図36と異なるのは、ユーザから検索の指示を受けたときに、クライアントPCは志向性データベース701からの最新の情報をサーバに送信し、サーバはそのデータを考慮した概念検索をおこなう点である。以下に詳しく説明する。
ユーザからの検索対象のノードの指定(S07001)に応じて、クライアントPCは指定に係るノードを判別し、検索対象となるノードの特定を行う(S07101)。そして、そのノードに関連づけられて格納されている文書データを読込み(S07102)、これを概念検索の入力条件となる文書データとする。
ここで、読み込む文書データとして、URLの要約文書または概念名が挙げられる点は図36で示したフローチャートと同様である。
次に、図35のステップS03104からステップS03109で示される志向性処理を行い(S07103)、ステップS07001で示されるユーザの指示を志向性情報として蓄積する。
続いて、志向性データベース701のいずれの志向性データベースを用いて概念検索を行うかの判別を行う(S07104)。判別のための情報は、プリセットデータを参照して得てもよいし、ユーザに入力を求める処理を行って得てもよい。
そして、上記判別に基づき特定された志向性データベース701AからCのいずれかにアクセスし、検索入力となる文書データにかかる概念のステータスデータおよびスコアデータを読込む(S07105)。引き続き、これらの志向性データベースからのデータを、検索入力となる文書データとともにサーバに送信する(S07106)。
クライアントPCからのデータを受信した(S07201)サーバは、志向性データベースからのデータも考慮した概念検索を行う(S07202)。この処理は後述する。この志向性検索処理の検索結果をクライアントPCへと送信する(S07203)。
サーバからの検索結果データを受信した(S07107)クライアントPCは、そのデータを志向性データベースからのデータを参照しつつ表示する志向反映表示処理を行う(S04108)。この処理は図37を用いて説明済みなので省略する。こうして表示のための処理が終了したら、次のユーザの指示を入力可能な状態にする処理を行い(S04107)、待機状態に入る。
ここで、サーバでの検索に用いた志向性データベースとは異なる志向性データベースを用いて志向反映表示処理を行うと、それぞれのデータベースにかかる個人の志向性の論理積に該当する検索結果がトポロジーグラフとして得られる。したがって、このような手法により共通の趣味の抽出などを行うことが実現される。
(図40)
図40は、図39のステップS07202として示した志向性検索処理の動作を示すフローチャートである。
その処理の多くは、図34に示したフローチャートにおけるサーバの動作と同様であるから、変更点を中心に説明する。
サーバが検索を行うための前段階としてクロール指示を行い(S02301)、インデックスデータベース302を整備している点は同じである。
また、クエリデータを読込み(S08201)、概念検索を行って(S08202)所定数の文ブロックを抽出し(S08203)、さらに文ブロックのグルーピングを行って(S08204)代表となる概念を選択して(S08205)これらの概念の概念距離を計算する(S08206)までの動作も同じである。
この一連の動作の段階ではクライアントPCからの志向性データを取り込むことなく処理を行うことで、概念検索結果のストックが可能になる。たとえば、あるユーザが行った概念検索結果をサーバに接続されるデータバッファに取り込んでおいて、検索入力データが同一の場合にはこのデータバッファから取り出すことが可能になる。このような処理を行うことで、検索処理や概念分類処理を省略することができ、サーバの処理負荷を緩和することが実現される。
こうして一般的な概念検索結果を得たら、サーバのメモリなどの記憶装置からステータスデータおよびスコアデータをクライアントPC内の作業用メモリに読み込む(S08207)。
続いて、ステータスデータに基づいて、検索結果である概念および文ブロックのそれぞれについてフィルタ処理を行う(S08208)。そして、このフィルタ処理で削除されなかった概念および文ブロックに対して、序列の決定および表示対象となる概念データの決定を行う(S08209)。
以上の処理によって、ユーザの志向を反映してトポロジーグラフの形状を変更することが実現される。このトポロジーグラフによって、ユーザの考え方や好みを一見して認識することが可能となる。
たとえば、10日間の主要新聞の社説を検索対象として検索を行うとする。ユーザが検索を行いながら読んで興味を持った記事がセンターキーワードの近傍に配置され、興味を持たなかった記事が外側に配置され、ユーザが嫌いな分野の記事はトポロジーグラフには表示されなくなる。この作業を複数のユーザに対して行うと、そのユーザの志向を比較することができる。また、著名なコメンテータにこの作業を行わせると、その結果得られるトポロジーグラフは「コメンテータのスクラップブック」となる。これを一般ユーザの求めに応じて提供すれば、一般ユーザはコメンテータの興味をそのまま体験することが実現される。
あるいは、所定期間内(月間、四半期、半期、年間など)にリリースされた楽曲を検索対象として音楽評論家に検索を行わせると、その音楽評論家の一押しの楽曲(リコメンデーション)にかかるノードがセンターキーワード近傍に配置されるようなトポロジーグラフが得られる。ここれを一般ユーザの求めに応じて提供すれば、一般ユーザは音楽評論家の選曲センスを視覚的に把握することが実現される。
本願発明は、事業としてインターネットサイトや特定のネットワークを運営する場合において、検索サービスを提供する際に利用できる。
たとえば、マーケティングなどの分野で顧客の探索ツールとして応用することも可能である。
また、検索結果として得られるトポロジーグラフを検索ユーザの志向の表現とすることができる。このようなユーザの「考え方」が可視化された情報表示体は、思想や思考パターンの表現ツールとしたり第三者の志向の読み取り手段としたりすることが可能である。
サーバと、そのサーバを利用するクライアントPCとの関係を図示したものである。 サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。 サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。 サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。 サーバがクライアントPCに提供するフォーマットと、クライアントPCに入力された検索用データとを図示した概略図である。 二次パラメータ作成手段の機能を図示した概略図である。 概念距離算出手段の機能を図示した概略図である。 検索用新データを用いて新たな検索を行う場合について図示した概念図である。 サンプルデータの出力例を示す概念図である。 サーバに対してインプットと最終的なアウトプットとを示した概念図である。 センターキーワードを「東京の賃貸不動産」とした場合における検索用データの概念図である。 インプットされる検索用データとサーバによってアウトプットされるトポロジーグラフとを示す概念図である。 テンプレートトポロジーグラフの作成プロセスを概念的に示した概略図である。 検索フォーマットからのインプットとサーバによるアウトプットの一例を示す概念図である。 サーバのアウトプットをユーザが操作して再びアウトプットを得る一例を示す概念図である。 旅行の検索におけるアウトプットを三次元的にした実施形態を示す概念図である。 不動産の検索におけるアウトプットを三次元的にした実施形態を示す概念図である。 本実施形態にかかるシステムと、このシステムを利用するユーザが使用するクライアントPCとの関係を図示したものである。 本実施形態にシステムのフォーマット提供手段が提供したフォーマットやアシストプログラムの機能を示した概略図である。 入力フォーマットとアシストプログラムとの関係を、ユーザ端末のサイドから示す概念図である。 入力フォーマットとアシストプログラムとの関係を、サーバのサイドから示す概念図である。 アシストプログラムによってユーザに提示されたトポロジーグラフをユーザが操作した場合を示した概念図である。 クラス・オブジェクトとインスタンス・オブジェクトの一例を図示したものである。 検索フォーマットやアシストプログラムについての、他の実施形態について示した概念図である。 検索対象に対して働きかけるフレーム化手段の機能を示した概念図である。 概念比較手段およびソート手段の機能を示した概念図である。 ソート結果とそのソート結果に対する分類手段の機能とを示した概念図である。 ソート結果を更にインプットして得られるアウトプットをイメージ的に図示したものである。 検索対象が極めて多い場合に、検索効率を上げるための手法を示す概念図である。 インプットされた検索用データにおけるテーマが変更されたアウトプットが得られる場合を示す概念図である。 ソート結果につき、アウトプットを三次元的にした実施形態を示す概念図である。 インプットされた検索用データにおけるテーマが変更されたアウトプットを三次元的にした実施形態を示す概念図である。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部(ユーザからの要望データ入力からサーバがクライアントPCからのデータを受信するまで)である。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部(サーバによる検索処理からクライアントPCによる表示処理まで)である。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部であって、トポロジーグラフの要素である概念ノードまたはURLノードの情報の表示をユーザが求めた場合の動作の前半を示すフローチャートである。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部であって、トポロジーグラフの要素である概念ノードまたはURLノードの情報の表示をユーザが求めた場合の動作の後半を示すフローチャートである。 図36における志向反映表示処理の動作を示したフローチャートである。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部(トポロジーグラフ上に示されたURLノードまたは概念ノードにかかる概念のステータスの変動をユーザが求めた場合の動作の一態様)である。 本願発明に係るクライアントPCおよびサーバの動作をユーザやネットワークとの関係で示したフローチャートの一部(トポロジーグラフ上に示されたURLノードまたは概念ノードにかかる検索をユーザが求めた場合の動作の他の態様)である。 図39における志向性検索処理の動作を示したフローチャートである。 図35における志向性DBに格納される概念ごとのステータスおよびスコアの一例である。 図35におけるスコア計算ステップ(S03108)におけるスコアの計算方法を概念的に示したものであり、(A)は当該概念にかかるノードが継続的にクリックされた場合で、(B)は当該概念にかかるノードが継続的にはクリックされなかった場合である。 図34における送信処理(S02207)によってクライアントPCへと送信されるデータの一部を例示的に示す表である。 図34における表示処理(S02102)によってクライアントPCの画面に表示されるトポロジーグラフの一例である。 各ノードと関連付けて記憶領域に格納されるデータの一例を示した図である。 各リンクと関連付けて記憶領域に格納されるデータの一例を示した図である。

Claims (5)

  1. ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手段と、
    そのフォーマット提供手段によって提供した検索フォーマットに入力された検索用データを受信する検索用データ受信手段と、
    受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手段と、
    その一次検索手段による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手段と、
    センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手段と、
    その概念算出手段によって算出された概念距離を所定範囲のトポロジーグラフとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手段と、
    そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手段とを備えた検索システム。
  2. ユーザのコンピュータに送信したトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザのコンピュータ操作によって概念距離の変更操作を可能としており、
    前記の検索用データ受信手段は、そのトポロジーグラフ出力データに基づいてユーザによって概念距離を操作されて新たに創作された検索用新データを受信し、
    前記の一次検索手段は、その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出し、
    前記の返信手段は、検索用新データに基づく一次検索結果、二次パラメータから算出されたトポロジーグラフ出力データをユーザに返信することとした請求項1に記載の検索システム。
  3. 予め、出力結果として使えるサンプルデータを蓄積したサンプルデータベースを備え、
    そのサンプルデータベースは、テーマ毎に分類されており、
    概念距離算出手段は、検索用データ受信手段が受信した検索用データについて、センターキーワードおよび一次パラメータを用いて、サンプルデータベースの中から類似性の高いサンプルを抽出するための比較演算をして最も類似しているサンプルを抽出し、
    返信手段は、最も類似しているサンプルをユーザに返信することとした請求項1または2に記載の検索システム。
  4. データ検索を実行するためのコンピュータプログラムであって、
    そのプログラムは、 ユーザが欲する検索テーマを表すセンターキーワードと、そのセンターキーワードに関するコンセプトを決定するための一次パラメータと、検索結果の出力に関する制限事項とを含む検索用データをユーザに入力してもらうための検索フォーマットをユーザに係るコンピュータに提供するフォーマット提供手順と、
    そのフォーマット提供手順にて提供した検索フォーマットにユーザが入力した検索用データを受信する検索用データ受信手順と、
    受信した検索用データにおける一次パラメータに関して所定のデータ群からセンターキーワードとのアンド条件にて一次検索を行って複数の一次検索結果を出す一次検索手順と、
    その一次検索手順による一次検索結果に対して前記制限事項を用いたフィルタリング処理することで二次パラメータを作成する二次パラメータ作成手順と、
    センターキーワードおよび各一次パラメータとで形成される概念と、各二次パラメータによる概念との概念距離を算出する概念距離算出手順と、
    その概念算出手順によって算出された概念距離を所定範囲のトポロジーグラフデータとして表示可能なトポロジーグラフ出力データとするトポロジーグラフ化手順と、
    そのトポロジーグラフ化手段によって算出されたトポロジーグラフ出力データをユーザに返信する返信手順とをコンピュータに実行させるためのコンピュータプログラム。
  5. ユーザに係るコンピュータへ送信されたトポロジーグラフ出力データは、それを構成している二次パラメータにつきユーザのコンピュータ操作によって概念距離の変更操作を可能としており、
    そのトポロジーグラフ出力データに基づいてユーザによって概念距離を操作されて新たに創作された検索用新データを受信する検索用新データ受信手順と、
    その検索用新データにおける一次パラメータに関して所定のデータ群から一次検索を行って複数の一次検索結果を出す再一次検索手順と、
    検索用新データに基づく一次検索結果、二次パラメータから算出されたトポロジーグラフ出力データをユーザに返信する再返信手順とを備えた請求項4に記載のコンピュータプログラム。
JP2006147956A 2005-05-31 2006-05-29 検索システムおよびコンピュータプログラム Withdrawn JP2007012039A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006147956A JP2007012039A (ja) 2005-05-31 2006-05-29 検索システムおよびコンピュータプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005158988 2005-05-31
JP2005158987 2005-05-31
JP2006147956A JP2007012039A (ja) 2005-05-31 2006-05-29 検索システムおよびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007012039A true JP2007012039A (ja) 2007-01-18

Family

ID=37750376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006147956A Withdrawn JP2007012039A (ja) 2005-05-31 2006-05-29 検索システムおよびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007012039A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145992A (ja) * 2007-12-11 2009-07-02 Internatl Business Mach Corp <Ibm> 複数単語を使用する検索式の作成を支援する方法、装置およびプログラム
JP2014533409A (ja) * 2011-11-15 2014-12-11 アビニシオ テクノロジー エルエルシー 変数トークンネットワークに基づくデータクラスタ化
JP2016131048A (ja) * 2008-08-29 2016-07-21 プライマル フュージョン インコーポレイテッド 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法
JP2019179522A (ja) * 2018-03-30 2019-10-17 株式会社ぐるなび サーバの制御方法、サーバ、およびサーバの制御プログラム
JP2020166402A (ja) * 2019-03-28 2020-10-08 Tis株式会社 発想支援システム、発想支援方法、プログラム
JP2021103576A (ja) * 2020-06-29 2021-07-15 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145992A (ja) * 2007-12-11 2009-07-02 Internatl Business Mach Corp <Ibm> 複数単語を使用する検索式の作成を支援する方法、装置およびプログラム
JP2016131048A (ja) * 2008-08-29 2016-07-21 プライマル フュージョン インコーポレイテッド 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法
JP2014533409A (ja) * 2011-11-15 2014-12-11 アビニシオ テクノロジー エルエルシー 変数トークンネットワークに基づくデータクラスタ化
US10503755B2 (en) 2011-11-15 2019-12-10 Ab Initio Technology Llc Data clustering, segmentation, and parallelization
US10572511B2 (en) 2011-11-15 2020-02-25 Ab Initio Technology Llc Data clustering based on candidate queries
JP2019179522A (ja) * 2018-03-30 2019-10-17 株式会社ぐるなび サーバの制御方法、サーバ、およびサーバの制御プログラム
JP7069979B2 (ja) 2018-03-30 2022-05-18 株式会社ぐるなび サーバの制御方法、サーバ、およびサーバの制御プログラム
JP2020166402A (ja) * 2019-03-28 2020-10-08 Tis株式会社 発想支援システム、発想支援方法、プログラム
JP7308059B2 (ja) 2019-03-28 2023-07-13 Tis株式会社 発想支援システム、発想支援方法、プログラム
JP2021103576A (ja) * 2020-06-29 2021-07-15 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム
JP7291169B2 (ja) 2020-06-29 2023-06-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム

Similar Documents

Publication Publication Date Title
CA2628930C (en) System and method for information retrieval from object collections with complex interrelationships
TWI493367B (zh) 搜尋結果之先進過濾方法
Lu et al. BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services
TWI570583B (zh) 於搜尋結果頁內提供已標定應用程式之系統與方法
CN101404015B (zh) 自动生成词条层次
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US9514425B2 (en) Method and system for providing user-customized contents
JP3717808B2 (ja) 情報検索システム
US20090300326A1 (en) System, method and computer program for transforming an existing complex data structure to another complex data structure
CN103455487B (zh) 一种搜索词的提取方法及装置
WO2010000064A1 (en) Information processing with integrated semantic contexts
JP2007317070A (ja) トポロジーグラフ表示システムおよびコンピュータプログラム
JP5313295B2 (ja) 文書探索サービス提供方法及びシステム
JP2007012039A (ja) 検索システムおよびコンピュータプログラム
CN106489142A (zh) 出版物范围可视化及分析
Cheung et al. A multi-faceted and automatic knowledge elicitation system (MAKES) for managing unstructured information
US20210240334A1 (en) Interactive patent visualization systems and methods
Burrows et al. A new model for manuscript provenance research: The mapping manuscript migrations project
Shihab et al. Development of a visualization tool for XML documents
CN106682126B (zh) 基于总体数据质量的主题数据集过滤与排序方法及系统
Burrows et al. Mapping Manuscript Migrations: Digging into Data for Researching the History and Provenance of Medieval and Renaissance Manuscripts: White Paper
JP4385087B2 (ja) 生活情報支援システム
Burrows A Tale of Two Collectors: Using nodegoat to Map the Connections Between the Manuscript Collections of Thomas Phillipps and Alfred Chester Beatty
Nakasumi Decision making aid in mobile environment by behavioral characteristic
Lee et al. Ontological-Based Search Engine

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090804