JP6322660B2 - 情報処理装置、情報処理システムおよび情報処理方法 - Google Patents

情報処理装置、情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
JP6322660B2
JP6322660B2 JP2016033481A JP2016033481A JP6322660B2 JP 6322660 B2 JP6322660 B2 JP 6322660B2 JP 2016033481 A JP2016033481 A JP 2016033481A JP 2016033481 A JP2016033481 A JP 2016033481A JP 6322660 B2 JP6322660 B2 JP 6322660B2
Authority
JP
Japan
Prior art keywords
document
keyword
information processing
cluster
document cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016033481A
Other languages
English (en)
Other versions
JP2017151720A (ja
Inventor
竹本 剛
剛 竹本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2016033481A priority Critical patent/JP6322660B2/ja
Publication of JP2017151720A publication Critical patent/JP2017151720A/ja
Application granted granted Critical
Publication of JP6322660B2 publication Critical patent/JP6322660B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザの閲覧するドキュメントに関連するコンテンツを選択してドキュメントとともに表示する情報処理装置、情報処理システムおよび情報処理方法に関する。
インターネット上で日々発信される無数の情報をユーザが限られた時間で閲覧するにあたっては、情報の取捨選択は極めて重要である。特許文献1には、効率よい情報閲覧のために、閲覧している情報に関連する情報を収集し、同一画面上に表示する技術が記載されている。
特開2014−215949号公報
特許文献1では、対象となるコンテンツ情報から抽出されたキーワードと、対象となるコンテンツ情報の属するカテゴリごとに定められた追加ワードとを検索ワードとして行った検索により取得された情報を画面の領域に表示するようにしている。これにより、対象となるコンテンツ情報に関連する情報が表示され、効率的な情報閲覧を可能にしている。
コンテンツ情報からのキーワード抽出は、固有名詞辞書を参照するなどして行うことができるが、そのキーワードがそのコンテンツ情報を適切に代表するものでない場合がある。また、同音異義語や複数分野で活躍する人物など、同じキーワードであってもユーザによって意味が異なる場合もある。このような場合には、対象となるコンテンツに関連する情報を適切に選択し表示することができない。
本発明は、ドキュメントに関連するコンテンツをより適切に取得してドキュメントとともに表示する情報処理装置を提供することを目的とする。
上述した課題を解決するために、本発明にかかる情報処理装置は、
ネットワーク経由でユーザがアクセスしたドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶するデータベース手段と、
指定されたドキュメントから単語を抽出する単語抽出手段と、
前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記特定されたドキュメントクラスタに出現する前記タームをキーワードとして選定するキーワード選定手段と、
前記データベース手段に記憶されたそれぞれの前記ドキュメントクラスタにおける出現傾向が前記キーワードと類似する前記タームを追加キーワードとして選定するキーワード追加手段と、
前記選定されたキーワードおよび前記選定された追加キーワードに関連するコンテンツをネットワークから取得するコンテンツ取得手段と、
前記取得されたコンテンツを前記指定されたドキュメントとともに表示する表示手段と、
を有することを特徴とする。
本発明により、ドキュメントに関連するコンテンツをより適切に取得してドキュメントとともに表示する情報処理装置を提供することができる。
本発明の第1の実施形態にかかる情報処理システムの概略構成図である。 本発明の第1の実施形態にかかる情報処理装置の機能ブロック図である。 データベース手段100に記憶されるデータの例である。 本発明の第1の実施形態にかかる情報処理装置のフローチャートである。 本発明の第2の実施形態にかかる情報処理システムの概略構成図である。
以下、本発明の実施の形態について詳細に説明する。
図1は、本発明の第1の実施形態にかかる情報処理システムの概略構成図である。図1に示すように、情報処理装置1は、通信部10と、処理部11と、表示部12と、データ記憶部13とを有して構成される。また、検索サーバ2は、通信部20と、検索部21とを有して構成される。情報処理装置1と検索サーバ2とは、ネットワーク3を介して接続される。情報処理装置1は、ユーザの操作によってネットワーク3経由でアクセス可能な各種情報にアクセスするものであり、パーソナルコンピュータやスマートホンなどが該当するが、これに限るものではない。
情報処理装置1の通信部10は、情報処理装置1をネットワーク3に接続し、情報の送受信を行う。通信部10は、具体的には図示しない有線LANインタフェースや無線LANインタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。
情報処理装置1の処理部11は、各種情報処理を実行する。各種情報処理には、図示しない入力部を介してユーザの指定するソフトウェアの実行の他に、情報処理装置1を構成する各部の制御など、ユーザが明示的に指定しない処理が含まれる。処理部11は、図示しないCPUおよびメモリにより構成可能である。
情報処理装置1の表示部12は、処理部11による情報処理結果をユーザに視認可能に表示する。表示部12は、液晶ディスプレイパネルなどのディスプレイユニットにより構成可能である。
情報処理装置1のデータ記憶部13は、各種データを不揮発に記憶する。各種データは、通信部10によりネットワーク3から受信されるものであってよく、図示しない入力部を介したユーザの入力に基づいて作成されるものであってもよい。また、各種データは、処理部11の処理の対象とすることができる。データ記憶部13は、ハードディスクドライブやSSD(Solid State Drive)などの不揮発記憶装置により構成可能である。
検索サーバ2の通信部20は、検索サーバ2をネットワーク3に接続し、情報の送受信を行う。通信部20は、具体的には図示しない有線LANインタフェースや無線LANインタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。
検索サーバ2の検索部21は、通信部20がネットワーク3経由で受け付ける検索要求に応じて検索を実行し、ネットワーク3経由で検索結果を要求元に送信する。ここでいう検索は、検索要求に含まれるキーワードと所定の関連を有する情報の特定である。かかる検索は、検索サーバ2自体が有するデータに基づいて行ってもよく、検索サーバ2とは別の情報保有サーバに要求して行わせるようにしてもよい。
図2は、本発明の第1の実施形態にかかる情報処理装置の機能ブロック図である。図2に示すように、情報処理装置1は、データベース手段100と、単語抽出手段110と、ドキュメントクラスタ特定手段120と、キーワード選定手段130と、キーワード追加手段140と、コンテンツ取得手段150と、表示手段160とを有する。
データベース手段100は、ネットワーク経由でユーザがアクセスしたドキュメントと、ドキュメントに出現する単語であるタームとについて、ドキュメントにおける出現傾向が類似するタームをグループ化したタームクラスタと、タームの出現傾向が類似するドキュメントをグループ化したドキュメントクラスタとを記憶する。データベース手段100は、ユーザがアクセスしたドキュメントに加えて、ユーザによりアクセスされていないドキュメントを含むネットワーク経由でアクセス可能なドキュメントについてのタームクラスタとドキュメントクラスタとを記憶してもよい。
データベース手段100に記憶されるデータの例を図3に示す。図3(a)に示すように、データベース手段100では、ドキュメントをX軸方向に、タームをY軸方向に並べた表としてデータを記憶している。ドキュメントとタームとの交点にある値は、そのドキュメントにそのタームが出現する頻度を示す。図3(a)では、出現頻度として出現回数と出現確率の両方が記載されているが、いずれか一方のみであってもよい。例えば、出現回数のみを記憶しておき、確率は都度計算することもできる。
図3(a)では、簡略化のため4つのドキュメントクラスタと4つのタームとの関係を示しているが、実際にはタームについてもドキュメントと同様にクラスタ化して記憶される。例えば、「ブルゾン」「スーツ」などのドキュメントにおける出現傾向が「ジャケット」と類似している場合、これらのタームをグループ化したタームクラスタが記憶される。また、クラスタ化される前の個々のドキュメントないしタームの値がクラスタの値とあわせて記憶されていてもよい。
なお、図3(a)では、出現確率を、全ドキュメントに出現すべてのタームの延べ出現回数の合計を分母とし、あるドキュメントクラスタに含まれるドキュメントにおけるあるタームの延べ出現回数を分子として算出している。このように算出した出現確率により、タームの属するドキュメントクラスタに固有の特性を見ることができる。
図3(a)より、例えばターム「鈴木」がドキュメントクラスタBに含まれるドキュメントに出現した回数が700回であり、全ドキュメントに出現したすべてのタームの中での出現確率が0.10であることを読み取ることができる。
また、データベース手段100が、情報処理装置1のユーザによる情報処理装置1の操作履歴に基づいてタームごとに特定される興味度を記憶するようにしてもよい。興味度は、ユーザがそのタームに対して有する興味の度合いの推測値であり、例えばユーザがあるドキュメントに対して閲覧などの操作を行ったときに、操作に応じた得点をそのドキュメントに出現するタームに付与し、タームごとに得点を合計するなどして求めることができる。
図3(a)はネットワーク経由でアクセス可能なドキュメントにおける出現頻度(全体頻度)を表し、図3(b)は実際にユーザがアクセスしたドキュメントにおける出現頻度(ユーザ頻度)を表している。このとき、ドキュメントクラスタCにおいて「鈴木」は全体頻度が0.06に対してユーザ頻度が0.15であり、ユーザの興味度が大きいと判断できる。
データベース手段100は、データ記憶部13に所定のデータを記憶するとともに、処理部11で所定のデータベース管理プログラムを実行することにより実施可能である。
単語抽出手段110は、指定されたドキュメントから単語を抽出する。ここでドキュメントとは、対応づけられたテキストを有するコンテンツであり、例えばニュース記事が記載されたWebページなどである。ここで指定とは、複数の対象から選択することを言い、選択はユーザが行ってもよいし、所定のアルゴリズムに従って装置が行ってもよい。
単語の抽出は、例えば指定されたドキュメントに対応するテキストの形態素解析により可能である。単語抽出手段110は、処理部11が所定のプログラムを実行することにより実施可能である。
ドキュメントクラスタ特定手段120は、抽出された単語に基づいて、指定されたドキュメントに関連するドキュメントクラスタを特定する。例えば抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低いドキュメントクラスタを、関連するドキュメントクラスタとして特定可能である。また、例えば抽出された単語で構成されるベクトルとドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルとで構成される距離の小さいドキュメントクラスタを、関連するドキュメントクラスタとして特定することも可能である。
指定されたドキュメントから「鈴木」「ジャケット」が抽出され、このドキュメントに関連するドキュメントクラスタを、図3(a)に例示したデータの中から特定することを考える。
まず、抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低いドキュメントクラスタを、関連するドキュメントクラスタとして特定する場合を考える。抽出された単語に該当する「鈴木」「ジャケット」の各ドキュメントクラスタにおける出現頻度の順位は、A:2位 3位、B:2位 4位、C:3位 1位、D:2位 3位 である。また、抽出された単語以外の「デレク」「福岡」の各ドキュメントクラスタにおける出現頻度の順位は、A:1位 4位、B:3位 1位、C:4位 2位、D:3位 1位 である。1位を4点、2位を3点、3位を2点、4位を1点として抽出された単語と抽出された単語以外についてそれぞれスコアを集計し、抽出された単語以外のスコアにマイナス1を乗じて合計すると、A:0点、B:−2点、C:2点、D:−1点となる。よって、スコアの大きいドキュメントクラスタCが関連するドキュメントクラスタとして特定される。
次に、抽出された単語で構成されるベクトルとドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルとで構成される距離の小さいドキュメントクラスタを、関連するドキュメントクラスタとして特定する場合を考える。「鈴木」「ジャケット」が抽出された場合、これらの単語で構成されたベクトルは、合計が1.0になるよう正規化すると(0.5,0,0,0.5)となる。一方、各ドキュメントクラスタにおける各タームの出現頻度で構成されるベクトルは、同様に正規化して、A:(0.38,0.42,0.00,0.21)、B:(0.32,0.27,0.36,0.05)、C:(0.22,0.06,0.28,0.44)、D:(0.25,0.00,0.75,0.00)となる。これらのベクトルで構成される距離を、各タームに対応する値の差の絶対値の合計として求めると、A:0.83、B:1.27、C:0.67、D:1.50となる。このとき、距離の小さいドキュメントクラスタCが関連するドキュメントクラスタとして特定される。
いずれの場合においても、スコアないし距離の計算方法は一例に過ぎず、他の計算方法も適用可能である。例えば、ベクトルで構成される距離としてユークリッド距離を用いてもよいし、コサイン類似度を用いてもよい。
ドキュメントクラスタ特定手段120は、処理部11が所定のプログラムを実行することにより実施可能である。なお、ここでは図3(a)のデータの中から特定する場合を説明したが、図3(b)のようなデータからも同様に特定できることは言うまでもない。
キーワード選定手段130は、特定されたドキュメントクラスタに出現するタームをキーワードとして選定する。例えば特定されたドキュメントクラスタにおいて出現頻度が高いタームを、キーワードとして選定することができる。また、特定されたドキュメントクラスタ内での出現確率がドキュメント全体での出現確率と比較して高いタームをキーワードとして選定することもできる。さらに、データベース手段100が興味度を記憶しているとき、特定されたドキュメントクラスタにおいて興味度が高いタームをキーワードとして選定することも可能である。
指定されたドキュメントから「鈴木」「ジャケット」が抽出され、このドキュメントに関連するドキュメントクラスタとして図3(a)に例示したデータの中から特定されたドキュメントクラスタCに出現するタームをキーワードとして選定することを考える。
図3(a)においてドキュメントクラスタCに出現するタームは「鈴木」「デレク」「福岡」「ジャケット」であり、これらのいずれであってもドキュメントクラスタCと何らかの関係を有するものであるので、キーワードとして選定することができる。
これらのうち、出現頻度の高い「ジャケット」「福岡」は、ドキュメントクラスタCに属するドキュメントに頻度高く出現するものであるので、ドキュメントに追加するコンテンツを取得するためのキーワードとして選定するのに好適である。
また、ドキュメントクラスタC内での出現確率とドキュメント全体での出現確率とを比較してキーワードを選定することができる。ドキュメントクラスタC内での出現確率は、ドキュメントクラスタC内における各タームの出現回数をドキュメントクラスタC全体での出現回数で除して求めることができ、図3(a)ではそれぞれ0.22、0.06、0.28、0.44である。一方、この値と対比すべきドキュメント全体での各タームの出現確率は、それぞれ0.31、0.25、0.24、0.21である。
これらを対比すると、「ジャケット」はドキュメント全体での出現確率が0.21であるのに対してドキュメントクラスタC内での出現確率が0.44であり、高くなっている。このようなキーワードは、特定されたドキュメントクラスタに頻度高く出現するタームであるので、ドキュメントに追加するコンテンツを取得するためのキーワードとして選定するのに好適である。このようにして選定すると、ドキュメントクラスタを特徴づけるものでないが頻度高く出現する一般的な単語(助詞など)がドキュメントに多く含まれている場合であっても、これらに影響されることなく適切にキーワードを選定できる。
さらに、図3(b)のデータからタームをキーワードとして選定するにあたり、興味度の高い「鈴木」「ジャケット」を選定することができる。これらのタームは、ドキュメントクラスタCに属するドキュメントに出現するタームのうちユーザが興味を有しているものであるので、ドキュメントに追加するコンテンツを取得するためのキーワードとして選定するのに好適である。
なお、ドキュメントクラスタからタームをキーワードとして選定するにあたり、指定されたドキュメントから抽出されたものであるか否かを考慮することができる。指定されたドキュメントから抽出されたものでないタームをキーワードとして選定するようにすると、ドキュメントに含まれた単語のみに基づいてドキュメントに追加するコンテンツを取得するやり方と比較してより適切にドキュメント内容ないしユーザ興味度を反映させることができる。
キーワード選定手段130は、処理部11が所定のプログラムを実行することにより実施可能である。
キーワード追加手段140は、データベース手段100に記憶されたそれぞれのドキュメントクラスタにおける出現傾向がキーワードと類似するタームを追加キーワードとして選定する。
図3の例で、「ジャケット」がキーワードとして選定されたものとする。図3(c)は、「ジャケット」とその他のタームとの出現傾向の対比を示している。具体的には、「鈴木」の行の値は、図3(b)に示す全ドキュメントにおけるクラスタごとの出現確率を「鈴木」の出現するドキュメントにおけるクラスタごとの出現確率となるよう正規化した正規化確率(クラスタAについて、0.07/0.34=0.20)と、対比の対象となる「ジャケット」の正規化確率の差の絶対値(クラスタAについて、|0.20−0.18|=0.02)をクラスタごとに求めた類似度である。
このようなドキュメントクラスタにおいては、類似度(正規化確率の選定キーワードとの差の絶対値)の合計が0.55となり、1.05の「デレク」や1.05の「福岡」よりも小さい「鈴木」を、キーワードとして選定された「ジャケット」と出現傾向が類似するタームとすることができる。すなわち、「鈴木」を追加キーワードとして選定することができる。
キーワードとその他のタームとの出現傾向の算出方法は、上記の例に限らない。例えば、ドキュメントクラスタごとの各タームの出現確率に基づいて各タームの距離を求めるようにしてもよい。
このように、ユーザのアクセスしたドキュメントを基に構成されたドキュメントクラスタにおいて出現傾向の類似するタームを追加キーワードとして選定するため、直接ドキュメントに含まれない単語をキーワードとすることができる。さらに、複数の意味で用いられる単語であっても、出現傾向はそのユーザにとっての意味を反映しているため、そのユーザにとっての意味に対応した追加キーワードが選定される。
例えば「タイ」というキーワードが選定されているときに、このユーザが東南アジア方面の観光に興味を持ってこれまでドキュメントにアクセスしてきていたとすると、「ハマチ」「アジ」などではなく「ベトナム」「バンコク」などが出現傾向の類似するタームとして選定される。単体では多義的な「タイ」に「ベトナム」「バンコク」を追加することで、後述するコンテンツ取得をより適切に実行することができるようになる。
キーワード追加手段140は、処理部11が所定のプログラムを実行することにより実施可能である。
コンテンツ取得手段150は、選定されたキーワードおよび選定された追加キーワードに関連するコンテンツをネットワークから取得する。キーワードおよび追加キーワードに関連するコンテンツの取得は、例えばネットワーク3を介して接続される検索サーバ2にキーワードおよび追加キーワードを検索ワードとした検索要求を送信し、検索サーバ2からキーワードおよび追加キーワードと所定の関連を有する情報である検索結果を受信することによって実行される。コンテンツ取得手段は、処理部11が所定のプログラムを実行し、必要に応じて通信部10がネットワーク3を介した通信を行うことで実施可能である。
表示手段150は、取得されたコンテンツを指定されたドキュメントとともに表示する。指定されたドキュメントと取得されたコンテンツとをともに表示することで、ユーザはドキュメントとともに関連するコンテンツにアクセスすることができる。
コンテンツは、画面におけるドキュメントと別の領域に表示してもよいし、ドキュメント内に追加して表示してもよい。また、ドキュメントが一画面に収まり切らない場合に、コンテンツを一画面に収まり切っていないドキュメントの領域に追加して表示してもよい。この場合、コンテンツはスクロール操作により初めてユーザに視認可能となるが、そうであってもユーザは、そのコンテンツがドキュメントと関連して表示されていることを容易に把握することができる。
表示手段は、処理部11が所定のプログラムを実行し、表示部12の表示内容を制御することで実施可能である。また、情報処理装置1が表示部12を有さず、接続された表示装置(不図示)の表示内容を制御することによっても実施可能である。
次に、図4を参照して本実施形態の情報処理装置1が実行する処理の流れを説明する。図4は、本発明の第1の実施形態にかかる情報処理装置のフローチャートである。
まず情報処理装置1は、単語抽出手段110により、指定されたドキュメントから単語を抽出する(ステップS41)。続いて情報処理装置1は、ドキュメントクラスタ特定手段120により、ステップS41にて抽出された単語に基づいて指定されたドキュメントに関連するドキュメントクラスタを、データベース手段100に記憶されたドキュメントクラスタから特定する(ステップS42)。
情報処理装置1は、次に、キーワード選定手段130により、ステップS42にて特定されたドキュメントクラスタに出現するタームをキーワードとして選定する(ステップS43)。続いて情報処理装置1は、キーワード追加手段140により、記憶されたそれぞれのドキュメントクラスタにおける出現傾向がステップS43にて選定されたキーワードと類似するタームを追加キーワードとして選定する(ステップS44)。
次に情報処理装置1は、コンテンツ取得手段150により、ステップS43にて選定されたキーワードおよびステップS44にて選定された追加キーワードに関連するコンテンツをネットワークから取得する(ステップS45)。
最後に情報処理装置1は、表示手段160により、ステップS45にて取得されたコンテンツを、指定されたドキュメントとともに表示する(ステップS46)。
以上のような処理を実行することにより、指定されたドキュメントの内容と所定の関連を有するコンテンツを取得し、ドキュメントとともに表示することができる。
次に、本発明の第2の実施形態を説明する。図5は、本発明の第2の実施形態にかかる情報処理システムの概略構成図である。本発明の第2の実施形態は、情報処理装置1と検索サーバ2に加えて、集計サーバ4がネットワーク3を介して接続される点が第1の実施形態と相違するため、共通する部分の説明は省略し、相違する部分を中心に説明する。
集計サーバ4は、ネットワーク経由でアクセス可能なドキュメントごとにドキュメントに出現する単語であるタームを集計し、情報処理装置1に提供するものである。集計サーバ4は、通信部40と集計部41とデータ記憶部42とを有して構成される。
集計サーバ4の通信部40は、集計サーバ4をネットワーク3に接続し、情報の送受信を行う。通信部40は、具体的には図示しない有線LANインタフェースや無線LANインタフェースおよびこれらの制御ソフトウェアないしファームウェアにより構成可能である。
集計サーバ4の集計部41は、通信部40がネットワーク3から受信したデータを集計する。具体的な集計処理については後述する。集計部41は、図示しないプロセッサで所定のプログラムを実行することにより構成可能である。
集計サーバ4のデータ記憶部42は、各種データを不揮発に記憶する。各種データは、通信部40によりネットワーク3から受信されたデータを集計部41が集計したものであってよい。データ記憶部42は、ハードディスクドライブやSSD(Solid State Drive)などの不揮発記憶装置により構成可能である。
集計部41は、ネットワーク経由でアクセス可能なドキュメントと、ドキュメントに出現する単語であるタームとについて、ドキュメントにおける出現傾向が類似するタームをグループ化したタームクラスタと、タームの出現傾向が類似するドキュメントをグループ化したドキュメントクラスタとを記憶する。
情報処理装置1と同様の装置がネットワーク3上に複数存在し、それらを異なるユーザが操作する状況を想定する。このとき、データベース手段100が記憶するデータを各情報処理装置1で独自に構築することはもちろん可能である。しかし、ネットワーク経由でアクセス可能なドキュメントにおけるタームの出現傾向は、どの情報処理装置1から見ても同じである。したがって、このデータを集計サーバ4で構築し、ネットワーク3を介して情報処理装置1に少なくとも一部を配信するようにすれば、情報処理装置1の負荷を効率的に削減することができるのである。
また、各情報処理装置1を操作するユーザの傾向は、まずは各情報処理装置1で把握される。よって、集計サーバ4から受信したドキュメントとタームとの一般的な出現傾向データに、情報処理装置1で把握された各タームに対するユーザの興味度を付加したデータベースを構築することで、よりユーザの嗜好に合致したコンテンツを取得し表示することが可能となる。
また、集計サーバ4から受信したドキュメントとタームとの一般的な出現傾向データに応じた分類で、情報処理装置1でユーザの操作履歴に基づき把握されたユーザのドキュメントの閲覧回数を記憶してゆくようにしてよい。このようにすると、ネットワーク経由でアクセス可能なドキュメントにおける出現頻度と実際にユーザがアクセスしたドキュメントにおける出現頻度とを比較することができるため、興味度を求めることができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
1 情報処理装置
10 通信部
11 処理部
12 表示部
13 データ記憶部
100 データベース手段
110 単語抽出手段
120 ドキュメントクラスタ特定手段
130 キーワード選定手段
140 キーワード追加手段
150 コンテンツ取得手段
160 表示手段
2 検索サーバ
20 通信部
21 検索部
3 ネットワーク
4 集計サーバ
40 通信部
41 集計部
42 データ記憶部

Claims (4)

  1. ネットワーク経由でユーザがアクセスしたドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶するデータベース手段と、
    指定されたドキュメントから単語を抽出する単語抽出手段と、
    前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
    前記特定されたドキュメントクラスタに出現する前記タームをキーワードとして選定するキーワード選定手段と、
    前記データベース手段に記憶されたそれぞれの前記ドキュメントクラスタにおける出現傾向が前記キーワードと類似する前記タームを追加キーワードとして選定するキーワード追加手段と、
    前記選定されたキーワードおよび前記選定された追加キーワードに関連するコンテンツをネットワークから取得するコンテンツ取得手段と、
    前記取得されたコンテンツを前記指定されたドキュメントとともに表示する表示手段と、
    を有することを特徴とする情報処理装置。
  2. 前記キーワード追加手段は、前記キーワードのそれぞれの前記ドキュメントクラスタにおける出現頻度と前記データベース手段に記憶された前記タームのそれぞれの前記ドキュメントクラスタにおける出現頻度との差の集計値が小さい前記タームを前記追加キーワードとして選定することを特徴とする、請求項1に記載の情報処理装置。
  3. ネットワークで接続された情報処理装置とサーバとを有する情報処理システムであって、
    前記サーバは、
    ネットワーク経由でアクセス可能なドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶する第1のデータベース手段を有し、
    前記情報処理装置は、
    前記サーバから前記第1のデータベース手段に記憶される前記ドキュメントクラスタの少なくとも一部を受信し、ユーザがアクセスした前記ドキュメントにおける前記タームの出現頻度を前記ドキュメントクラスタごとに記憶する第2のデータベース手段と、
    指定されたドキュメントから単語を抽出する単語抽出手段と、
    前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
    前記特定されたドキュメントクラスタに出現する前記タームをキーワードとして選定するキーワード選定手段と、
    前記第2のデータベース手段に記憶されたそれぞれの前記ドキュメントクラスタにおける出現傾向が前記キーワードと類似する前記タームを追加キーワードとして選定するキーワード追加手段と、
    前記選定されたキーワードおよび前記選定された追加キーワードに関連するコンテンツをネットワークから取得するコンテンツ取得手段と、
    前記取得されたコンテンツを前記指定されたドキュメントとともに表示する表示手段と、
    を有する
    ことを特徴とする情報処理システム。
  4. 情報処理システムのコンピュータが、
    ネットワーク経由でユーザがアクセスしたドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタを記憶するデータベース記憶ステップと、
    指定されたドキュメントから単語を抽出する単語抽出ステップと、
    前記抽出された単語に基づいて、前記指定されたドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定ステップと、
    前記特定されたドキュメントクラスタに出現する前記タームをキーワードとして選定するキーワード選定ステップと、
    それぞれの前記ドキュメントクラスタにおける出現傾向が前記キーワードと類似する前記タームを追加キーワードとして選定するキーワード追加ステップと、
    前記選定されたキーワードおよび前記選定された追加キーワードに関連するコンテンツをネットワークから取得するコンテンツ取得ステップと、
    前記取得されたコンテンツを前記指定されたドキュメントとともに表示する表示ステップと、
    実行することを特徴とする情報処理方法。
JP2016033481A 2016-02-24 2016-02-24 情報処理装置、情報処理システムおよび情報処理方法 Active JP6322660B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016033481A JP6322660B2 (ja) 2016-02-24 2016-02-24 情報処理装置、情報処理システムおよび情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016033481A JP6322660B2 (ja) 2016-02-24 2016-02-24 情報処理装置、情報処理システムおよび情報処理方法

Publications (2)

Publication Number Publication Date
JP2017151720A JP2017151720A (ja) 2017-08-31
JP6322660B2 true JP6322660B2 (ja) 2018-05-09

Family

ID=59739750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016033481A Active JP6322660B2 (ja) 2016-02-24 2016-02-24 情報処理装置、情報処理システムおよび情報処理方法

Country Status (1)

Country Link
JP (1) JP6322660B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法
JP4179858B2 (ja) * 2002-11-28 2008-11-12 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP4477931B2 (ja) * 2004-04-21 2010-06-09 日本電信電話株式会社 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5743938B2 (ja) * 2012-03-26 2015-07-01 株式会社日立製作所 連想検索システム、連想検索サーバ及びプログラム
JP5805134B2 (ja) * 2013-04-30 2015-11-04 Necパーソナルコンピュータ株式会社 端末装置および装置のプログラム

Also Published As

Publication number Publication date
JP2017151720A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
US8583640B2 (en) Method and system of search result diversification
US20190213197A1 (en) Document relevancy analysis within machine learning systems
EP3143523B1 (en) Visual interactive search
US10515147B2 (en) Using statistical language models for contextual lookup
WO2021068610A1 (zh) 资源推荐的方法、装置、电子设备及存储介质
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
JP2009003888A (ja) キーワード提示のための装置、方法、及びプログラム
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
Gupta et al. Fuzzy logic-based approach to develop hybrid similarity measure for efficient information retrieval
JP2017219899A (ja) ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム
US20180276294A1 (en) Information processing apparatus, information processing system, and information processing method
US11062371B1 (en) Determine product relevance
JP5559750B2 (ja) 広告処理装置、情報処理システム及び広告処理方法
JP7213890B2 (ja) 高速化された大規模な類似度計算
JP6322660B2 (ja) 情報処理装置、情報処理システムおよび情報処理方法
JPWO2013157603A1 (ja) 検索クエリ分析装置、検索クエリ分析方法、及びプログラム
JP6275758B2 (ja) 情報処理システム、情報処理方法、およびプログラム
JP6325502B2 (ja) 情報処理装置、情報処理システムおよび情報処理方法
US20140365454A1 (en) Entity relevance for search queries
JP6234978B2 (ja) 情報処理装置、情報処理システム、およびプログラム
CN114610859A (zh) 基于内容与协同过滤的产品推荐方法、装置及设备
JP5887031B1 (ja) 商品特定装置、商品特定方法及び商品特定プログラム
JP6167029B2 (ja) レコメンド情報生成装置およびレコメンド情報生成方法
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180409

R150 Certificate of patent or registration of utility model

Ref document number: 6322660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250