JP2002259409A - 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム - Google Patents
情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラムInfo
- Publication number
- JP2002259409A JP2002259409A JP2001057356A JP2001057356A JP2002259409A JP 2002259409 A JP2002259409 A JP 2002259409A JP 2001057356 A JP2001057356 A JP 2001057356A JP 2001057356 A JP2001057356 A JP 2001057356A JP 2002259409 A JP2002259409 A JP 2002259409A
- Authority
- JP
- Japan
- Prior art keywords
- items
- item
- information extraction
- group
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 情報全体の多様性・特徴を失わずに情報数を
削減できる情報抽出方法を提供する。 【解決手段】 (a)に示すように膨大なアイテム10
1が散在した集合の状態から、各アイテム101間での
類似度を数値で規定する。次に、(b)に示すようにグ
ループ化を行うことにより、類似するアイテム同士をグ
ループ102にまとめていく。グループ化を行った後、
(c)に示すように、それぞれのグループ内から代表と
なる情報アイテムを選び、それら代表アイテム103を
集めてユーザに提供する。
削減できる情報抽出方法を提供する。 【解決手段】 (a)に示すように膨大なアイテム10
1が散在した集合の状態から、各アイテム101間での
類似度を数値で規定する。次に、(b)に示すようにグ
ループ化を行うことにより、類似するアイテム同士をグ
ループ102にまとめていく。グループ化を行った後、
(c)に示すように、それぞれのグループ内から代表と
なる情報アイテムを選び、それら代表アイテム103を
集めてユーザに提供する。
Description
【0001】
【発明の属する技術分野】本発明は、情報抽出方法、情
報抽出装置、コンピュータ読取可能な記憶媒体およびコ
ンピュータ・プログラムに関し、より詳細には、たとえ
ばインターネットのショッピングモール等で提供される
情報検索を行うための情報抽出方法、情報抽出装置、コ
ンピュータ読取可能な記憶媒体およびコンピュータ・プ
ログラムに関するものである。
報抽出装置、コンピュータ読取可能な記憶媒体およびコ
ンピュータ・プログラムに関し、より詳細には、たとえ
ばインターネットのショッピングモール等で提供される
情報検索を行うための情報抽出方法、情報抽出装置、コ
ンピュータ読取可能な記憶媒体およびコンピュータ・プ
ログラムに関するものである。
【0002】
【従来の技術】従来から行われている情報検索サービス
は、検索対象の情報(例えば商品情報やWebサイトに
関する情報等)がデータベースとして蓄積保存されたデ
ータベースサーバによって行われるのが一般的である。
データベースサーバは、情報検索者の端末(クライアン
ト)が指定した検索条件に合致する検索対象をデータベ
ースから検索する。そして、検索の結果取得した情報を
クライアントに提供する。
は、検索対象の情報(例えば商品情報やWebサイトに
関する情報等)がデータベースとして蓄積保存されたデ
ータベースサーバによって行われるのが一般的である。
データベースサーバは、情報検索者の端末(クライアン
ト)が指定した検索条件に合致する検索対象をデータベ
ースから検索する。そして、検索の結果取得した情報を
クライアントに提供する。
【0003】このような従来の情報検索サービスでは、
データベースサーバに登録されている検索対象に対応付
けられたキーワードが検索条件として使用される。キー
ワード検索では、データベースサーバがクライアントか
らキーワードの入力を受け付ける。そして、入力された
キーワードが検索対象に対応付けられているか否かを基
準として、検索対象を切り分ける。切り分けの結果、検
索条件に合致しない検索対象は捨てられる。この操作が
繰り返されることにより、情報数が削減されていく。
データベースサーバに登録されている検索対象に対応付
けられたキーワードが検索条件として使用される。キー
ワード検索では、データベースサーバがクライアントか
らキーワードの入力を受け付ける。そして、入力された
キーワードが検索対象に対応付けられているか否かを基
準として、検索対象を切り分ける。切り分けの結果、検
索条件に合致しない検索対象は捨てられる。この操作が
繰り返されることにより、情報数が削減されていく。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来のキーワード検索では、情報検索者側において検
索目的が不明確な場合に問題が生じる。具体的には、 そもそも情報検索者が検索目的を説明できない場合で
あっても、クライアントからキーワードの設定を要求
し、 本来検索目的となる可能性の高い情報が、不正確なキ
ーワードに基づく情報数の削減により除去されてしま
い、 検索目的を見つけ出すことができない といった問題が考えられる。
た従来のキーワード検索では、情報検索者側において検
索目的が不明確な場合に問題が生じる。具体的には、 そもそも情報検索者が検索目的を説明できない場合で
あっても、クライアントからキーワードの設定を要求
し、 本来検索目的となる可能性の高い情報が、不正確なキ
ーワードに基づく情報数の削減により除去されてしま
い、 検索目的を見つけ出すことができない といった問題が考えられる。
【0005】特に、の段階における問題は、検索目的
が不明確な場合に特徴的である。キーワード検索は、入
力されたキーワード以外の情報を排除するという性質が
ある。検索目的があいまいな情報検索者が不適切なキー
ワードを記述した場合、本来の検索目的も「目的」外で
あると判断されて切り捨てられる可能性がある。
が不明確な場合に特徴的である。キーワード検索は、入
力されたキーワード以外の情報を排除するという性質が
ある。検索目的があいまいな情報検索者が不適切なキー
ワードを記述した場合、本来の検索目的も「目的」外で
あると判断されて切り捨てられる可能性がある。
【0006】このように、従来のキーワード検索では、
限定した範囲の外にある情報を全て削除する手法を採用
しているため、検索目的が不明確な場合に適切な情報検
索を行うことができないという問題があった。
限定した範囲の外にある情報を全て削除する手法を採用
しているため、検索目的が不明確な場合に適切な情報検
索を行うことができないという問題があった。
【0007】本発明は、このような問題に鑑みてなされ
たものであり、その目的とするところは、情報全体の多
様性・特徴を失わずに情報数を削減できる情報抽出方
法、情報抽出装置、コンピュータ読取可能な記憶媒体お
よびコンピュータ・プログラムを提供することにある。
たものであり、その目的とするところは、情報全体の多
様性・特徴を失わずに情報数を削減できる情報抽出方
法、情報抽出装置、コンピュータ読取可能な記憶媒体お
よびコンピュータ・プログラムを提供することにある。
【0008】
【課題を解決するための手段】本発明は、上記問題を解
決するために、請求項1に記載の発明は、情報処理装置
を用いてデータベース中のアイテム群から1つ以上のア
イテムを抽出する情報抽出方法であって、前記アイテム
の類似度に基づいて前記アイテム群から互いに類似する
アイテムのグループを作成するステップと、アイテムに
関する処理を参照する抽出基準に基づいて、前記作成さ
れたグループの各々から代表アイテムを抽出するステッ
プとを備えたことを特徴とする。
決するために、請求項1に記載の発明は、情報処理装置
を用いてデータベース中のアイテム群から1つ以上のア
イテムを抽出する情報抽出方法であって、前記アイテム
の類似度に基づいて前記アイテム群から互いに類似する
アイテムのグループを作成するステップと、アイテムに
関する処理を参照する抽出基準に基づいて、前記作成さ
れたグループの各々から代表アイテムを抽出するステッ
プとを備えたことを特徴とする。
【0009】また、請求項2に記載の発明は、請求項1
に記載の情報抽出方法において、前記アイテムは商品の
情報であることを特徴とする。
に記載の情報抽出方法において、前記アイテムは商品の
情報であることを特徴とする。
【0010】また、請求項3に記載の発明は、請求項2
に記載の情報抽出方法において、前記類似度は、前記ア
イテムに対応する商品の購入ユーザ数、購入ユーザの割
合、および前記アイテムが統合される前記グループの小
ささのいずれかを含むことを特徴とする。
に記載の情報抽出方法において、前記類似度は、前記ア
イテムに対応する商品の購入ユーザ数、購入ユーザの割
合、および前記アイテムが統合される前記グループの小
ささのいずれかを含むことを特徴とする。
【0011】また、請求項4に記載の発明は、請求項1
〜3のいずれかに記載の情報抽出方法において、前記抽
出基準は、前記アイテムが前記グループに統合される対
象となった回数、前記アイテムに対応する商品の購入ユ
ーザ数、および購入時期のいずれかを含むことを特徴と
する。
〜3のいずれかに記載の情報抽出方法において、前記抽
出基準は、前記アイテムが前記グループに統合される対
象となった回数、前記アイテムに対応する商品の購入ユ
ーザ数、および購入時期のいずれかを含むことを特徴と
する。
【0012】また、請求項5に記載の発明は、請求項1
〜4のいずれかに記載の情報抽出方法において、前記抽
出されたアイテムを端末に表示するステップを更に備え
たことを特徴とする。
〜4のいずれかに記載の情報抽出方法において、前記抽
出されたアイテムを端末に表示するステップを更に備え
たことを特徴とする。
【0013】また、請求項6に記載の発明は、請求項5
に記載の情報抽出方法において、前記表示されたアイテ
ムのうちからの1つ以上のアイテムの選択に応じて、該
選択されたアイテムを含むグループを2つ以上のサブグ
ループに分割するステップと、前記抽出基準に基づいて
前記分割されたサブグループの各々から代表アイテムを
再抽出するステップとを備えたことを特徴とする。
に記載の情報抽出方法において、前記表示されたアイテ
ムのうちからの1つ以上のアイテムの選択に応じて、該
選択されたアイテムを含むグループを2つ以上のサブグ
ループに分割するステップと、前記抽出基準に基づいて
前記分割されたサブグループの各々から代表アイテムを
再抽出するステップとを備えたことを特徴とする。
【0014】また、請求項7に記載の発明は、請求項6
に記載の情報抽出方法において、前記再抽出されたアイ
テムを前記端末に表示するステップを更に備えたことを
特徴とする。
に記載の情報抽出方法において、前記再抽出されたアイ
テムを前記端末に表示するステップを更に備えたことを
特徴とする。
【0015】また、請求項8に記載の発明は、データベ
ース中のアイテム群から1つ以上のアイテムを抽出する
情報抽出装置であって、前記アイテムの類似度に基づい
て、前記アイテム群から互いに類似するアイテムのグル
ープを作成するグループ化手段と、アイテムに関する処
理を参照する抽出基準に基づいて、前記作成されたグル
ープの各々について代表アイテムを抽出する抽出手段と
を備えたことを特徴とする。
ース中のアイテム群から1つ以上のアイテムを抽出する
情報抽出装置であって、前記アイテムの類似度に基づい
て、前記アイテム群から互いに類似するアイテムのグル
ープを作成するグループ化手段と、アイテムに関する処
理を参照する抽出基準に基づいて、前記作成されたグル
ープの各々について代表アイテムを抽出する抽出手段と
を備えたことを特徴とする。
【0016】また、請求項9に記載の発明は、請求項8
に記載の情報抽出装置において、該情報抽出装置は、情
報抽出サーバであることを特徴とする。
に記載の情報抽出装置において、該情報抽出装置は、情
報抽出サーバであることを特徴とする。
【0017】また、請求項10に記載の発明は、データ
ベース中のアイテム群から1つ以上のアイテムを抽出す
る情報抽出プログラムを記録したコンピュータ読取可能
な記憶媒体であって、前記プログラムは、コンピュータ
に対して、前記アイテムの類似度に基づいて前記アイテ
ム群から互いに類似するアイテムのグループを作成さ
せ、アイテムに関する処理を参照する抽出基準に基づい
て、前記作成されたグループの各々から代表アイテムを
抽出させることを特徴とする。
ベース中のアイテム群から1つ以上のアイテムを抽出す
る情報抽出プログラムを記録したコンピュータ読取可能
な記憶媒体であって、前記プログラムは、コンピュータ
に対して、前記アイテムの類似度に基づいて前記アイテ
ム群から互いに類似するアイテムのグループを作成さ
せ、アイテムに関する処理を参照する抽出基準に基づい
て、前記作成されたグループの各々から代表アイテムを
抽出させることを特徴とする。
【0018】さらに、請求項11に記載の発明は、デー
タベース中のアイテム群から1つ以上のアイテムを抽出
する情報抽出方法を実行するためのコンピュータ・プロ
グラムであって、コンピュータに対して、前記アイテム
の類似度に基づいて前記アイテム群から互いに類似する
アイテムのグループを作成させ、アイテムに関する処理
を参照する抽出基準に基づいて、前記作成されたグルー
プの各々から代表アイテムを抽出させることを特徴とす
る。
タベース中のアイテム群から1つ以上のアイテムを抽出
する情報抽出方法を実行するためのコンピュータ・プロ
グラムであって、コンピュータに対して、前記アイテム
の類似度に基づいて前記アイテム群から互いに類似する
アイテムのグループを作成させ、アイテムに関する処理
を参照する抽出基準に基づいて、前記作成されたグルー
プの各々から代表アイテムを抽出させることを特徴とす
る。
【0019】このような構成をとることにより、偏って
情報を切り捨てることなく、満遍なく多様な情報が残る
形で情報数を削減することができる。また、上記構成に
よれば、検索目的が不明確な場合であっても効果的な情
報抽出および情報表示が可能となる。
情報を切り捨てることなく、満遍なく多様な情報が残る
形で情報数を削減することができる。また、上記構成に
よれば、検索目的が不明確な場合であっても効果的な情
報抽出および情報表示が可能となる。
【0020】具体的な解決手法を述べると、次のように
なる。情報抽出実現のために情報数を削減する際、他と
異なる‘個性的な’情報を削ると、全体を特徴付ける要
素のひとつを失うことになるので、‘個性的な’情報は
残さなければならない。そこで、本発明では、情報のグ
ループ化の実現手法として、他と異ならないかまたは類
似する情報が他に存在するものを削る(隠す)手法を用
意する。
なる。情報抽出実現のために情報数を削減する際、他と
異なる‘個性的な’情報を削ると、全体を特徴付ける要
素のひとつを失うことになるので、‘個性的な’情報は
残さなければならない。そこで、本発明では、情報のグ
ループ化の実現手法として、他と異ならないかまたは類
似する情報が他に存在するものを削る(隠す)手法を用
意する。
【0021】図1は、本発明に係るアイテムのグループ
化を概念的に示す。また、図2は、本発明に係るアイテ
ムのグループ化の手順を示す。なお、以下の説明では、
書籍、Webサイトおよび商品等の、概念的に一つのも
のと区分できる単位の個々の情報を「アイテム」とい
う。
化を概念的に示す。また、図2は、本発明に係るアイテ
ムのグループ化の手順を示す。なお、以下の説明では、
書籍、Webサイトおよび商品等の、概念的に一つのも
のと区分できる単位の個々の情報を「アイテム」とい
う。
【0022】まず、図1(a)に示すように膨大なアイ
テム101が散在した集合の状態から、各アイテム間で
の類似度を数値で規定する(図2のステップS1)。次
に、図1(b)に示すようにグループ化を行うことによ
り、類似するアイテム同士をグループ102にまとめて
いく(ステップS2)。所定回数、あるいは所定のグル
ープ数になるまでグループ化を行った後、図1(c)に
示すように、それぞれのグループから代表となる情報ア
イテム一点(以下、代表アイテムという)を抽出し(ス
テップS3)、その代表アイテム103を集めてユーザ
に提供する(ステップS4)。
テム101が散在した集合の状態から、各アイテム間で
の類似度を数値で規定する(図2のステップS1)。次
に、図1(b)に示すようにグループ化を行うことによ
り、類似するアイテム同士をグループ102にまとめて
いく(ステップS2)。所定回数、あるいは所定のグル
ープ数になるまでグループ化を行った後、図1(c)に
示すように、それぞれのグループから代表となる情報ア
イテム一点(以下、代表アイテムという)を抽出し(ス
テップS3)、その代表アイテム103を集めてユーザ
に提供する(ステップS4)。
【0023】そして、代表アイテムのうちからの1つ以
上のアイテムが選択された場合(ステップS5のYes
ルート)、選択された代表アイテムを含むグループを2
つ以上のサブグループに分割し(ステップS6)、各サ
ブグループから代表アイテムを再抽出し(ステップS
7)、ユーザに再度提供する(ステップS8)。
上のアイテムが選択された場合(ステップS5のYes
ルート)、選択された代表アイテムを含むグループを2
つ以上のサブグループに分割し(ステップS6)、各サ
ブグループから代表アイテムを再抽出し(ステップS
7)、ユーザに再度提供する(ステップS8)。
【0024】この手順をまとめると、以下のようにな
る。 1.類似性のあるアイテム同士のグルーピング 2.代表アイテム抽出基準を決定しアイテムを抽出 3.各代表アイテムを表示 4.表示されたアイテムから1つを選択し、再表示
る。 1.類似性のあるアイテム同士のグルーピング 2.代表アイテム抽出基準を決定しアイテムを抽出 3.各代表アイテムを表示 4.表示されたアイテムから1つを選択し、再表示
【0025】
【発明の実施の形態】以下、図面を参照し、本発明の実
施の形態について詳細に説明する。
施の形態について詳細に説明する。
【0026】図3は、本発明に係る情報抽出方法を実現
するシステムの概略構成の一例を示す。本発明に係る情
報抽出方法を実現するシステムは、図3に示すように、
本発明に係る情報抽出方法を実行する情報抽出サーバ2
01と、情報抽出サーバへアクセスして情報の検索要求
および検索結果の取得を行うWWW端末205a、20
5b、205cおよび205d(以下、WWW端末20
5と総称する)とがネットワーク200に接続されてい
る。
するシステムの概略構成の一例を示す。本発明に係る情
報抽出方法を実現するシステムは、図3に示すように、
本発明に係る情報抽出方法を実行する情報抽出サーバ2
01と、情報抽出サーバへアクセスして情報の検索要求
および検索結果の取得を行うWWW端末205a、20
5b、205cおよび205d(以下、WWW端末20
5と総称する)とがネットワーク200に接続されてい
る。
【0027】ネットワーク200は、LAN、イントラ
ネット、インターネット等の情報通信に使用される周知
の通信網として構成される。WWW端末205は、We
bサーバにアクセスするモデム等の通信手段を備えた汎
用のコンピュータが使用される。また、WWW端末20
5には、Webサーバへアクセスして取得した画像を閲
覧するためのブラウザソフトがインストールされてい
る。
ネット、インターネット等の情報通信に使用される周知
の通信網として構成される。WWW端末205は、We
bサーバにアクセスするモデム等の通信手段を備えた汎
用のコンピュータが使用される。また、WWW端末20
5には、Webサーバへアクセスして取得した画像を閲
覧するためのブラウザソフトがインストールされてい
る。
【0028】情報抽出サーバ201は、Webサーバと
して機能するものであり、複数のアイテムを記憶したデ
ータベース205と、類似するアイテムのグループ化を
行う類似アイテムグループ化部202と、アイテムのグ
ループから代表アイテムを抽出する代表アイテム抽出部
203と、WWW端末205に画像を表示するための情
報を送信するアイテム表示部204とを備えている。
して機能するものであり、複数のアイテムを記憶したデ
ータベース205と、類似するアイテムのグループ化を
行う類似アイテムグループ化部202と、アイテムのグ
ループから代表アイテムを抽出する代表アイテム抽出部
203と、WWW端末205に画像を表示するための情
報を送信するアイテム表示部204とを備えている。
【0029】なお、情報抽出サーバ201は、具体的に
はハードディスク等の記憶装置、キーボードやマウス等
の入力装置、およびディスプレイ等の出力装置を備えた
汎用のパーソナルコンピュータを使用することができ
る。
はハードディスク等の記憶装置、キーボードやマウス等
の入力装置、およびディスプレイ等の出力装置を備えた
汎用のパーソナルコンピュータを使用することができ
る。
【0030】以下の説明では、ネットワーク200とし
てインターネットを使用し、ショッピングモールでの各
商品をアイテムとして、情報抽出サーバ201がそのア
イテムのカタログ表示をするためにアイテムの選別およ
び抽出を行うことを想定している。ここで、アイテムの
具体例としては、書籍、衣類およびWebサイト等があ
る。また、データベース205には、各アイテム(商
品)ごとに、どのユーザが過去に購入したかを示す購入
履歴が記憶されているものとする。したがって、データ
ベース205には、アイテムとユーザとタイムスタンプ
(購入日時)とがあらかじめ記憶されている。
てインターネットを使用し、ショッピングモールでの各
商品をアイテムとして、情報抽出サーバ201がそのア
イテムのカタログ表示をするためにアイテムの選別およ
び抽出を行うことを想定している。ここで、アイテムの
具体例としては、書籍、衣類およびWebサイト等があ
る。また、データベース205には、各アイテム(商
品)ごとに、どのユーザが過去に購入したかを示す購入
履歴が記憶されているものとする。したがって、データ
ベース205には、アイテムとユーザとタイムスタンプ
(購入日時)とがあらかじめ記憶されている。
【0031】(1)グループ化基準 まず、アイテムのグループ化の基準について説明する。
本実施形態では、アイテムの類似度を判断する基準とし
て、以下のものが使用される。
本実施形態では、アイテムの類似度を判断する基準とし
て、以下のものが使用される。
【0032】i.アイテムに対応する商品の購入ユーザ
数(アイテム間で重複する購入ユーザ数の多さ) ii.アイテム間で重複する購入ユーザの割合の高さ iii.アイテムが統合されるグループの小ささ(小さ
いグループへの統合を優先する) すなわち、これらの基準から類似度を判断して、最も類
似するアイテム同士をグループ化(統合)する。ここ
で、統合後のグループの小ささを類似度の判定基準とす
るのは、以下の理由による。
数(アイテム間で重複する購入ユーザ数の多さ) ii.アイテム間で重複する購入ユーザの割合の高さ iii.アイテムが統合されるグループの小ささ(小さ
いグループへの統合を優先する) すなわち、これらの基準から類似度を判断して、最も類
似するアイテム同士をグループ化(統合)する。ここ
で、統合後のグループの小ささを類似度の判定基準とす
るのは、以下の理由による。
【0033】後述するように、各グループ毎に代表アイ
テムが抽出され、ユーザに提供される。図4(a)に示
すように、各グループのアイテム数に偏りが少ない場
合、ユーザは提供された代表アイテムが属するグループ
内のアイテムの全体的な傾向を推定できる。一方、図4
(b)に示すように、グループによってアイテム数に偏
りがある場合、ユーザは提供された代表アイテムが属す
るグループ内のアイテムの全体的な傾向を推定できな
い。そこで、小さいグループへの統合を優先する基準を
設けることにより、図4(a)の例に示す状態を作るた
めのグループ化を行う。
テムが抽出され、ユーザに提供される。図4(a)に示
すように、各グループのアイテム数に偏りが少ない場
合、ユーザは提供された代表アイテムが属するグループ
内のアイテムの全体的な傾向を推定できる。一方、図4
(b)に示すように、グループによってアイテム数に偏
りがある場合、ユーザは提供された代表アイテムが属す
るグループ内のアイテムの全体的な傾向を推定できな
い。そこで、小さいグループへの統合を優先する基準を
設けることにより、図4(a)の例に示す状態を作るた
めのグループ化を行う。
【0034】図5は、アイテムα、βおよびγについて
上述した抽出基準を適用して優先順位付けを行った例を
示す。図5(a)に示す例において、アイテム間で重複
する購入ユーザ数を基準とした場合は、重複するアイテ
ムが最も多いαおよびγのグループ化が優先される。ま
た、図5(b)に示す例において、アイテム間で重複す
る購入ユーザの割合を基準とした場合は、重複する割合
が4/5であるαおよびβのグループ化が優先される。
更に、図5(c)に示す例において、統合後のグループ
の小ささを基準とした場合、αおよびγのグループ化に
対してαおよびβのグループ化が優先される。
上述した抽出基準を適用して優先順位付けを行った例を
示す。図5(a)に示す例において、アイテム間で重複
する購入ユーザ数を基準とした場合は、重複するアイテ
ムが最も多いαおよびγのグループ化が優先される。ま
た、図5(b)に示す例において、アイテム間で重複す
る購入ユーザの割合を基準とした場合は、重複する割合
が4/5であるαおよびβのグループ化が優先される。
更に、図5(c)に示す例において、統合後のグループ
の小ささを基準とした場合、αおよびγのグループ化に
対してαおよびβのグループ化が優先される。
【0035】本実施形態では、適用する基準の優先順位
をi>ii>iiiとしてアイテムのグループ化を行
う。ここで、符号「>」は左辺が右辺に優先することを
示す。また、iiは、アイテム双方の平均として計算す
る。
をi>ii>iiiとしてアイテムのグループ化を行
う。ここで、符号「>」は左辺が右辺に優先することを
示す。また、iiは、アイテム双方の平均として計算す
る。
【0036】次に、図6〜図8を参照し、アイテムをグ
ループ化する手順の具体例について説明する。
ループ化する手順の具体例について説明する。
【0037】いま、ユーザに割り当てられたユーザ番号
1〜10と、それぞれのユーザがアクセスしたアイテム
A〜Mとが図6(a)に示す対応関係にあるとする。ま
ず、図6(b)に示すように、アイテムごとにユーザを
集計する。そして、グループ化基準i〜iiiを使用
し、図7および図8に示す順位に従って、一つずつグル
ープ化がなされていく。
1〜10と、それぞれのユーザがアクセスしたアイテム
A〜Mとが図6(a)に示す対応関係にあるとする。ま
ず、図6(b)に示すように、アイテムごとにユーザを
集計する。そして、グループ化基準i〜iiiを使用
し、図7および図8に示す順位に従って、一つずつグル
ープ化がなされていく。
【0038】図8に示す表の内訳上位の順位付けについ
て説明する。まず、基準iに基づき、アイテム全体のう
ちで重複ユーザ数が最も多いものを探す。この探索を行
うと、アイテムBおよびD、アイテムAおよびCについ
てそれぞれ4ユーザの重複があり、この2組の類似度は
等しい。基準iiについてこの2組を比較すると、ユー
ザ重複割合がBおよびDは90%、AとCは約73%で
ある。したがって、ユーザ重複割合の高いBおよびDの
組が最も類似度が高いと判断され、グループ化順位1位
として採択される。2位は、AおよびCの組である。
て説明する。まず、基準iに基づき、アイテム全体のう
ちで重複ユーザ数が最も多いものを探す。この探索を行
うと、アイテムBおよびD、アイテムAおよびCについ
てそれぞれ4ユーザの重複があり、この2組の類似度は
等しい。基準iiについてこの2組を比較すると、ユー
ザ重複割合がBおよびDは90%、AとCは約73%で
ある。したがって、ユーザ重複割合の高いBおよびDの
組が最も類似度が高いと判断され、グループ化順位1位
として採択される。2位は、AおよびCの組である。
【0039】次に、4ユーザ重複するアイテムはもうな
いので、3ユーザ重複するものを探すと、EおよびF,
AおよびB,EおよびC,FおよびCの4組が同列であ
る。上記と同様に基準iiについての比較を行うと、E
およびFが重複割合100%と一番高いので、グループ
化順位3位となる。以下、図8に示す順序でグループ化
が進められる。
いので、3ユーザ重複するものを探すと、EおよびF,
AおよびB,EおよびC,FおよびCの4組が同列であ
る。上記と同様に基準iiについての比較を行うと、E
およびFが重複割合100%と一番高いので、グループ
化順位3位となる。以下、図8に示す順序でグループ化
が進められる。
【0040】なお、基準iiiを使用したアイテム探索
は、以下のように行われる。BおよびD、AおよびC、
EおよびFは、それぞれ独立にグループ化を行うため、
これらの統合先グループのアイテムは1である。Aおよ
びBのグループ化を行う場合、優先度の高いAおよびC
の2アイテムからなるグループにBを統合することとな
る。したがって、Bからみた統合先グループのアイテム
数は2となる。また、EおよびCをグループ化する場
合、優先度の高いA、B、C、Dからなるグループに対
してEを統合することとなる。したがって、Eからみた
統合先グループのアイテム数は4となる。
は、以下のように行われる。BおよびD、AおよびC、
EおよびFは、それぞれ独立にグループ化を行うため、
これらの統合先グループのアイテムは1である。Aおよ
びBのグループ化を行う場合、優先度の高いAおよびC
の2アイテムからなるグループにBを統合することとな
る。したがって、Bからみた統合先グループのアイテム
数は2となる。また、EおよびCをグループ化する場
合、優先度の高いA、B、C、Dからなるグループに対
してEを統合することとなる。したがって、Eからみた
統合先グループのアイテム数は4となる。
【0041】このようにして統合先グループのアイテム
数を算出し、その数の小さいアイテム同士のグループ化
を優先する。
数を算出し、その数の小さいアイテム同士のグループ化
を優先する。
【0042】(2)代表アイテムの決定 次に、上述した手順でグループ化された各グループの中
から代表アイテムを1個抽出する方法について説明す
る。本実施形態では、代表アイテムを抽出する際に、グ
ループ内の各アイテムに関する過去の処理内容を参照す
る。具体的には、以下の抽出基準が適用される。
から代表アイテムを1個抽出する方法について説明す
る。本実施形態では、代表アイテムを抽出する際に、グ
ループ内の各アイテムに関する過去の処理内容を参照す
る。具体的には、以下の抽出基準が適用される。
【0043】I.グループに統合される対象となった回
数が最も多い商品のアイテム II.購入ユーザの最も多い商品のアイテム III.購入時期が最新の商品の(最も最近購入され
た)アイテム
数が最も多い商品のアイテム II.購入ユーザの最も多い商品のアイテム III.購入時期が最新の商品の(最も最近購入され
た)アイテム
【0044】これらの抽出基準は、上述した順序で適用
される。したがって、1つの基準でアイテムの篩い分け
を行い、同じものが複数あれば次の基準について比較す
る。
される。したがって、1つの基準でアイテムの篩い分け
を行い、同じものが複数あれば次の基準について比較す
る。
【0045】なお、基準IIおよびIIIについては、
データベースに登録されている購入履歴を参照すること
により実行されることはいうまでもない。
データベースに登録されている購入履歴を参照すること
により実行されることはいうまでもない。
【0046】(3)表示方法 代表アイテム抽出部203によって、各グループから代
表アイテムが抽出されると、アイテム表示部204は、
抽出された代表アイテムを集めた一覧形式の画像の情報
を送信し、ネットワーク200を経由してWWW端末2
05のディスプレイに表示する。そのユーザインタフェ
ースは、アイテム数の多いグループの代表アイテムから
順に並べたものである。アイテムが書籍である場合に、
WWW端末205のディスプレイに表示される画面の例
を、図9に示す。
表アイテムが抽出されると、アイテム表示部204は、
抽出された代表アイテムを集めた一覧形式の画像の情報
を送信し、ネットワーク200を経由してWWW端末2
05のディスプレイに表示する。そのユーザインタフェ
ースは、アイテム数の多いグループの代表アイテムから
順に並べたものである。アイテムが書籍である場合に、
WWW端末205のディスプレイに表示される画面の例
を、図9に示す。
【0047】(4)選択操作 図10は、本発明に係る情報抽出方法におけるユーザの
利用局面での動作の流れを概念的に示す。図10(a)
に示すように、ユーザは、WWW端末205に表示され
た代表アイテム103の集合の中から、アイテムの名前
や関連情報を参考に代表アイテムの1つに注目し、その
代表アイテム103を選択する。情報抽出サーバ201
はこの選択に応答し、図10(b)に示すように、選択
/注目された代表アイテムが抽出されたグループ(類似
アイテムで構成されている)を複数のサブグループ90
1に分割する。具体的には、グループ化を1段階〜数段
階遡った状態に戻す。この操作により、ユーザが選択/
注目したグループがサブグループ901にほどけた/ば
らけた状態になる。
利用局面での動作の流れを概念的に示す。図10(a)
に示すように、ユーザは、WWW端末205に表示され
た代表アイテム103の集合の中から、アイテムの名前
や関連情報を参考に代表アイテムの1つに注目し、その
代表アイテム103を選択する。情報抽出サーバ201
はこの選択に応答し、図10(b)に示すように、選択
/注目された代表アイテムが抽出されたグループ(類似
アイテムで構成されている)を複数のサブグループ90
1に分割する。具体的には、グループ化を1段階〜数段
階遡った状態に戻す。この操作により、ユーザが選択/
注目したグループがサブグループ901にほどけた/ば
らけた状態になる。
【0048】次に、図10(c)に示すように、分割に
よって増えたサブグループの中から代表アイテムを決定
した後、それらを加えた全代表アイテムをWWW端末2
05に再表示する。図11は、ここで再表示される画面
のイメージを示す。図11に示す例では、図9に示す書
籍リストのうち、書籍タイトルが「ウェブユーザビリテ
ィ」及び「熊の敷石」の書籍にユーザが注目し、この2
つの書籍を選択した場合における画面の変化イメージを
想定している。
よって増えたサブグループの中から代表アイテムを決定
した後、それらを加えた全代表アイテムをWWW端末2
05に再表示する。図11は、ここで再表示される画面
のイメージを示す。図11に示す例では、図9に示す書
籍リストのうち、書籍タイトルが「ウェブユーザビリテ
ィ」及び「熊の敷石」の書籍にユーザが注目し、この2
つの書籍を選択した場合における画面の変化イメージを
想定している。
【0049】このように、WWW端末に表示される画面
には、ユーザにより選択/注目されたアイテムの周辺が
分割され、詳細化されるが、同時に他の代表アイテムは
残った状態になる。したがって、上述した抽出および再
表示の動作を繰り返すことにより、グループ全体として
の特徴を保ちつつ、ユーザが興味を持ったグループが詳
細化されていく。結果として、後戻りや‘よそ見’の可
能な検索環境が実現できる。また、ユーザはこの検索環
境の中で無理なく目的を明確化してことができる。
には、ユーザにより選択/注目されたアイテムの周辺が
分割され、詳細化されるが、同時に他の代表アイテムは
残った状態になる。したがって、上述した抽出および再
表示の動作を繰り返すことにより、グループ全体として
の特徴を保ちつつ、ユーザが興味を持ったグループが詳
細化されていく。結果として、後戻りや‘よそ見’の可
能な検索環境が実現できる。また、ユーザはこの検索環
境の中で無理なく目的を明確化してことができる。
【0050】以上、本発明の好適な実施の形態について
説明したが、本発明は、上述の実施形態に限定されるも
のではなく、他の種々の形態で実施できることはいうま
でもない。例えば、本発明を適用したシステム構成は図
3に示す構成図に限定されるものではなく、情報表示手
段を持つ端末装置と、それに情報を与える情報処理装置
とがあれば足りる。
説明したが、本発明は、上述の実施形態に限定されるも
のではなく、他の種々の形態で実施できることはいうま
でもない。例えば、本発明を適用したシステム構成は図
3に示す構成図に限定されるものではなく、情報表示手
段を持つ端末装置と、それに情報を与える情報処理装置
とがあれば足りる。
【0051】本発明は、記憶装置、入力装置、および出
力装置からデータおよび命令を受け取り、それらにデー
タおよび命令を送るように結合されたプロセッサを備え
るコンピュータ・システム上で実行可能なコンピュータ
プログラムを使用して実施できる。このコンピュータ・
プログラムは、高級手続型プログラミング言語、オブジ
ェクト指向プログラミング言語、アセンブリ言語、機械
語またはHTML言語等のマークアップランゲージで記
述される。
力装置からデータおよび命令を受け取り、それらにデー
タおよび命令を送るように結合されたプロセッサを備え
るコンピュータ・システム上で実行可能なコンピュータ
プログラムを使用して実施できる。このコンピュータ・
プログラムは、高級手続型プログラミング言語、オブジ
ェクト指向プログラミング言語、アセンブリ言語、機械
語またはHTML言語等のマークアップランゲージで記
述される。
【0052】したがって、プロセッサは、コンピュータ
・プログラムを記憶装置から受け取る。コンピュータ・
プログラムの命令を実体的に組み入れる記憶装置として
は、たとえばフラッシュメモリ素子などの半導体メモリ
素子、ハードディスクやリムーバブルディスクなどの磁
気ディスク、CD−R等の媒体を使用することができ
る。
・プログラムを記憶装置から受け取る。コンピュータ・
プログラムの命令を実体的に組み入れる記憶装置として
は、たとえばフラッシュメモリ素子などの半導体メモリ
素子、ハードディスクやリムーバブルディスクなどの磁
気ディスク、CD−R等の媒体を使用することができ
る。
【0053】
【発明の効果】以上説明したように、本発明によれば、
情報検索サービスにおいて、偏って情報を切り捨てるこ
となく、満遍なく多様な情報が残る形で情報数を削減す
ることができる。また、情報検索車において検索目的が
不明確な場合であっても適切な情報表示が可能となる。
情報検索サービスにおいて、偏って情報を切り捨てるこ
となく、満遍なく多様な情報が残る形で情報数を削減す
ることができる。また、情報検索車において検索目的が
不明確な場合であっても適切な情報表示が可能となる。
【図1】本発明に係るアイテムのグループ化を概念的に
示す図である。
示す図である。
【図2】本発明に係るアイテムのグループ化の手順を示
すフローチャートである。
すフローチャートである。
【図3】本発明に係る情報抽出方法を実現するシステム
の概略構成の一例を示す図である。
の概略構成の一例を示す図である。
【図4】アイテムのグループ化の一例を概念的に示す図
である。
である。
【図5】アイテムα、βおよびγについてこれらの基準
を適用して優先順位付けを行った例を示す図である。
を適用して優先順位付けを行った例を示す図である。
【図6】ユーザに割り当てられたユーザ番号とユーザが
アクセスしたアイテムとの関係を示す図である。
アクセスしたアイテムとの関係を示す図である。
【図7】図5に示すアイテムのグループ化の順序を示す
図である。
図である。
【図8】図5に示すアイテムのグループ化の順序の内訳
を示す図である。
を示す図である。
【図9】WWW端末に表示される画面のイメージを示す
図である。
図である。
【図10】本発明に係る情報抽出方法におけるユーザの
利用局面での動作の流れを概念的に示す図である。
利用局面での動作の流れを概念的に示す図である。
【図11】WWW端末に表示される画面のイメージを示
す図である。
す図である。
101 アイテム 102 グループ 103 代表アイテム 901 サブグループ
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND04 NK04 NK06 NK13 NK24 NK37 NK39 NR02 NR12 NS03 PP03 PP13 PQ02 PQ46 QM08 UU40
Claims (11)
- 【請求項1】 情報処理装置を用いてデータベース中の
アイテム群から1つ以上のアイテムを抽出する情報抽出
方法であって、 前記アイテムの類似度に基づいて前記アイテム群から互
いに類似するアイテムのグループを作成するステップ
と、 アイテムに関する処理を参照する抽出基準に基づいて、
前記作成されたグループの各々から代表アイテムを抽出
するステップとを備えたことを特徴とする情報抽出方
法。 - 【請求項2】 請求項1に記載の情報抽出方法におい
て、前記アイテムは商品の情報であることを特徴とする
情報抽出方法。 - 【請求項3】 請求項2に記載の情報抽出方法におい
て、前記類似度は、前記アイテムに対応する商品の購入
ユーザ数、購入ユーザの割合、および前記アイテムが統
合される前記グループの小ささのいずれかを含むことを
特徴とする情報抽出方法。 - 【請求項4】 請求項1〜3のいずれかに記載の情報抽
出方法において、前記抽出基準は、前記アイテムが前記
グループに統合される対象となった回数、前記アイテム
に対応する商品の購入ユーザ数、および購入時期のいず
れかを含むことを特徴とする情報抽出方法。 - 【請求項5】 請求項1〜4のいずれかに記載の情報抽
出方法において、前記抽出されたアイテムを端末に表示
するステップを更に備えたことを特徴とする情報抽出方
法。 - 【請求項6】 請求項5に記載の情報抽出方法におい
て、 前記表示されたアイテムのうちからの1つ以上のアイテ
ムの選択に応じて、該選択されたアイテムを含むグルー
プを2つ以上のサブグループに分割するステップと、 前記抽出基準に基づいて前記分割されたサブグループの
各々から代表アイテムを再抽出するステップとを備えた
ことを特徴とする情報抽出方法。 - 【請求項7】 請求項6に記載の情報抽出方法におい
て、前記再抽出されたアイテムを前記端末に表示するス
テップを更に備えたことを特徴とする情報抽出方法。 - 【請求項8】 データベース中のアイテム群から1つ以
上のアイテムを抽出する情報抽出装置であって、 前記アイテムの類似度に基づいて、前記アイテム群から
互いに類似するアイテムのグループを作成するグループ
化手段と、 アイテムに関する処理を参照する抽出基準に基づいて、
前記作成されたグループの各々について代表アイテムを
抽出する抽出手段とを備えたことを特徴とする情報抽出
装置。 - 【請求項9】 請求項8に記載の情報抽出装置におい
て、該情報抽出装置は、情報抽出サーバであることを特
徴とする情報抽出装置。 - 【請求項10】 データベース中のアイテム群から1つ
以上のアイテムを抽出する情報抽出プログラムを記録し
たコンピュータ読取可能な記憶媒体であって、前記プロ
グラムは、コンピュータに対して、 前記アイテムの類似度に基づいて前記アイテム群から互
いに類似するアイテムのグループを作成させ、 アイテムに関する処理を参照する抽出基準に基づいて、
前記作成されたグループの各々から代表アイテムを抽出
させることを特徴とするコンピュータ読取可能な記憶媒
体。 - 【請求項11】 データベース中のアイテム群から1つ
以上のアイテムを抽出する情報抽出方法を実行するため
のコンピュータ・プログラムであって、コンピュータに
対して、 前記アイテムの類似度に基づいて前記アイテム群から互
いに類似するアイテムのグループを作成させ、 アイテムに関する処理を参照する抽出基準に基づいて、
前記作成されたグループの各々から代表アイテムを抽出
させることを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001057356A JP2002259409A (ja) | 2001-03-01 | 2001-03-01 | 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001057356A JP2002259409A (ja) | 2001-03-01 | 2001-03-01 | 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002259409A true JP2002259409A (ja) | 2002-09-13 |
Family
ID=18917248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001057356A Pending JP2002259409A (ja) | 2001-03-01 | 2001-03-01 | 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002259409A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221607A (ja) * | 2005-01-13 | 2006-08-24 | Univ Chuo | 判別分析を行う方法、プログラム及び装置 |
WO2006095599A1 (ja) * | 2005-03-08 | 2006-09-14 | Pioneer Corporation | 情報処理装置及び情報処理方法 |
JPWO2007088893A1 (ja) * | 2006-02-01 | 2009-06-25 | パナソニック株式会社 | 情報分類装置および情報検索装置 |
WO2010024027A1 (ja) * | 2008-08-28 | 2010-03-04 | 日本電気株式会社 | 仮想サーバシステム及び物理サーバ選択方法 |
JP2012108862A (ja) * | 2010-10-21 | 2012-06-07 | Jvc Kenwood Corp | 情報処理方法、表示方法、情報処理装置、端末装置、及び情報処理プログラム |
JP2012173813A (ja) * | 2011-02-17 | 2012-09-10 | Jvc Kenwood Corp | コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム |
JP2014026381A (ja) * | 2012-07-25 | 2014-02-06 | Sharp Corp | 情報処理システム、情報処理方法及びプログラム |
JP2014222532A (ja) * | 2010-10-21 | 2014-11-27 | 株式会社Jvcケンウッド | 情報処理方法、表示方法、情報処理装置、端末装置、及び情報処理プログラム |
-
2001
- 2001-03-01 JP JP2001057356A patent/JP2002259409A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221607A (ja) * | 2005-01-13 | 2006-08-24 | Univ Chuo | 判別分析を行う方法、プログラム及び装置 |
WO2006095599A1 (ja) * | 2005-03-08 | 2006-09-14 | Pioneer Corporation | 情報処理装置及び情報処理方法 |
JPWO2006095599A1 (ja) * | 2005-03-08 | 2008-08-14 | パイオニア株式会社 | 情報処理装置及び情報処理方法等 |
JPWO2007088893A1 (ja) * | 2006-02-01 | 2009-06-25 | パナソニック株式会社 | 情報分類装置および情報検索装置 |
JP4808736B2 (ja) * | 2006-02-01 | 2011-11-02 | パナソニック株式会社 | 情報分類装置および情報検索装置 |
WO2010024027A1 (ja) * | 2008-08-28 | 2010-03-04 | 日本電気株式会社 | 仮想サーバシステム及び物理サーバ選択方法 |
JPWO2010024027A1 (ja) * | 2008-08-28 | 2012-01-26 | 日本電気株式会社 | 仮想サーバシステム及び物理サーバ選択方法 |
US8966038B2 (en) | 2008-08-28 | 2015-02-24 | Nec Corporation | Virtual server system and physical server selection method |
JP2012108862A (ja) * | 2010-10-21 | 2012-06-07 | Jvc Kenwood Corp | 情報処理方法、表示方法、情報処理装置、端末装置、及び情報処理プログラム |
JP2014222532A (ja) * | 2010-10-21 | 2014-11-27 | 株式会社Jvcケンウッド | 情報処理方法、表示方法、情報処理装置、端末装置、及び情報処理プログラム |
JP2012173813A (ja) * | 2011-02-17 | 2012-09-10 | Jvc Kenwood Corp | コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム |
JP2014026381A (ja) * | 2012-07-25 | 2014-02-06 | Sharp Corp | 情報処理システム、情報処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9342563B2 (en) | Interface for a universal search | |
US8156100B2 (en) | Methods and apparatus for employing usage statistics in document retrieval | |
US8739061B1 (en) | Method and apparatus for output of search results | |
US7475074B2 (en) | Web search system and method thereof | |
US8996517B2 (en) | Permitting users to remove documents | |
JP2014501422A (ja) | ユーザ意図の有無に基づく検索キーワードの推薦 | |
JP2015501061A (ja) | カテゴリシステムの知的ナビゲーション | |
JP5483269B2 (ja) | 情報検索装置、情報検索方法 | |
JP2007183859A (ja) | 情報検索システム、情報検索方法、及び情報管理装置 | |
JP4939637B2 (ja) | 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体 | |
JP2018504686A (ja) | 検索データを処理するための方法及び装置 | |
JP4973503B2 (ja) | ファイル検索プログラム、方法及び装置 | |
JP5548900B2 (ja) | 複数の属性を利用したWebページ推薦方法 | |
US9483559B2 (en) | Reformulating query terms in structured search | |
JP2002259409A (ja) | 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム | |
JP4955841B2 (ja) | 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体 | |
JP5561842B2 (ja) | 情報検索装置、情報検索プログラム、プログラム格納媒体 | |
JP2013011940A (ja) | 情報提供サーバ、情報検索システム、情報検索方法、および情報検索プログラム | |
JP5835754B2 (ja) | 情報検索支援装置、情報検索支援方法、情報検索支援プログラム、プログラム格納媒体 | |
JP2012043290A (ja) | 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体 | |
JP5561745B2 (ja) | 情報検索支援装置、情報検索支援方法、情報検索支援プログラム、プログラム格納媒体 | |
JP3933617B2 (ja) | 共有情報検索方法、共有情報検索プログラム、および情報共有システム | |
JP5106995B2 (ja) | 情報検索支援装置、情報検索支援方法、情報検索支援プログラム、プログラム格納媒体 | |
JP2003216642A (ja) | コンテンツ管理方法及び装置 |