JP2014240999A

JP2014240999A - 関心事判別装置、関心事判別方法、およびコンピュータプログラム

Info

Publication number: JP2014240999A
Application number: JP2013122309A
Authority: JP
Inventors: 河渕　洋一; Yoichi Kawabuchi; 洋一河渕; 聡史出石; Satoshi Izushi; 香美森脇; Yoshimi Moriwaki
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2013-06-11
Filing date: 2013-06-11
Publication date: 2014-12-25
Anticipated expiration: 2033-06-11
Also published as: US9607076B2; JP5900419B2; US20140365510A1

Abstract

【課題】特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別する。【解決手段】画像形成装置１に次の手段を設ける。ユーザごとに、複数の単語からなるペアごとの、当ユーザが過去にアクセスした文書である第一の文書の中の同一のクラスタに現われる回数である共起回数を当ユーザに対応付けて記憶するプロファイルデータ記憶部１０１。第二の文書およびいずれか１人のユーザの指定を受け付ける検索キー文書指定受付部１３１。指定された第二の文書の中の同一のクラスタに現われかつ指定されたユーザに対応する共起回数が所定の条件を満たすペアを、この第二の文書の中のこのユーザにとって関心が高いと考えられる関心ペアであると判別する、特徴ペア判別部１３８。【選択図】図９

Description

本発明は、ユーザにとっての関心事を表わす複数の単語を判別する技術に関する。

従来、情報を検索する種々の技術が提案されている。例えば、検索者が検索キーとして指定した単語が含まれている文書を検索する技術が普及している。

より高度な技術も提案されている。特許文献１に記載される技術によると、ユーザから画像とともに文章が入力された場合、入力された文章中の単語間の関連情報を関連情報抽出部によって抽出し、関連情報記録部に記録しておく。その後、新たに文章が入力された場合に、入力された文章中の関連情報を抽出し、抽出した関連情報と関連情報記録部に記録されている関連情報とを比較して、類似する関連情報に関連付けられた画像を呈示する。

特許文献２に記載される技術によると、検索要求に含まれる単語と、文書情報の集合内の各文書情報に含まれる単語との関連に基づいて、文書情報の集合から少なくとも１つの文書情報を含む候補文書情報の集合を検索する。そして、検索要求における単語間の関係と、候補文書情報の各々における単語間の関係に基づいて、候補文書情報の集合から検索要求に関連する文書情報を検索する。

特許文献３に記載される技術によると、単語を指定して検索を行ない対象となる文書群を選別する。文書を形態素解析して単語を抽出し、頻出数に基づいて着目単語を選ぶ。着目単語の共起関係（共起グラフ）を、各文書の文単位で検出する。多くの文書に含まれる共起グラフを概念グラフとして選び、概念グラフを含むかどうかにより書く文書の概念ベクトルを決定する。概念ベクトルに従って文書を分類し表示し、選択できるようにする。

特開２００８−２４２５１５号公報特開２００３−２８１１８３号公報特開２００２−５６００９号公報

ところで、あるユーザが、ある文書を読んでいるときに、この文書に関連しかつこのユーザ自身にとって関心のある他の文書を参照したくなる場合がある。または、あるユーザが、ある文書を読んでいるときに、この文書に関連しかつ他のユーザにとって関心のある他の文書を参照したくなる場合がある。

これらの場合に、関心事を示す複数の単語をいわゆる検索キーとして検索を行うことが、考えられる。複数の単語を用いることによって、参照したい文書をより確実に絞り込むことができる。

しかし、どのような事項に関心があるのかは、ユーザごとに異なる。よって、検索キーとして用いる複数の単語を決めることが難しい。

文書の中の注目している箇所を、開いているページを検知したりユーザの視線を検知したりすることによって判別する技術も、提案されている。しかし、これらの技術は、大掛かりである。

本発明は、このような問題点に鑑み、特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することを、目的とする。

本実施形態に係る関心事判別装置は、ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書の中の同一のクラスタに現われる回数である共起回数を当該ユーザに対応付けて記憶する、実績記憶手段と、第二の文書および前記ユーザのうちのいずれか１人を検索者が指定するための指定手段と、前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われかつ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、を有する。前記クラスタは、例えば、センテンス、段落、章、項、または節である。

好ましくは、前記所定の条件は、他のいずれのペアの共起回数よりも多いことである。または、前記所定の条件は、前記第一の文書の量に対する割合が所定の割合以上であることである。

好ましくは、前記ペアは、前記第一の文書に現われる割合が所定の割合以上である単語からなるペアである。

または、前記関心ペアを構成する複数の単語をすべて含む文書を検索する検索手段、を有する。

本発明によると、特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することができる。

イントラネットの全体的な構成の例を示す図である。画像形成装置のハードウェア構成の例を示す図である。画像形成装置の機能的構成の例を示す図である。個人プロファイルデータの例を示す図である。ワードネットワークの例を示す図である。プロファイル登録処理部の構成の例を示す図である。文書ごとのワードネットワークの例を示す図である。統合したワードネットワークの例を示す図である。文書検索部の構成の例を示す図である。検索指令画面の例を示す図である。特徴ペア判別処理の流れの例を説明するフローチャートである。検索キー文書のワードネットワークの例を示す図である。特徴ペア判別処理の流れの変形例を説明するフローチャートである。特徴ペア判別処理の流れの変形例を説明するフローチャートである。検索結果画面の例を示す図である。文書の検索に関する全体的な処理の流れの例を説明するフローチャートである。

図１は、イントラネット４の全体的な構成の例を示す図である。図２は、画像形成装置１のハードウェア構成の例を示す図である。図３は、画像形成装置１の機能的構成の例を示す図である。

図１に示すように、イントラネット４は、画像形成装置１、１台または複数台の端末装置２、および通信回線３などによって構成される。

画像形成装置１と各端末装置２とは、通信回線３を介して通信を行うことができる。通信回線３として、いわゆるＬＡＮ（Local Area Network）回線、公衆回線、専用線、またはインターネットなどが用いられる。

イントラネット４は、企業、役所、または学校などの団体のメンバによって使用される。したがって、各メンバがイントラネット４のユーザである。ユーザには、個々を識別するためのユニークなユーザコードが与えられている。

画像形成装置１は、コピー、ネットワークプリンティング、スキャン、ファックス、およびボックスなどの機能を集約した装置である。一般に、「複合機」または「ＭＦＰ（Multi Function Peripherals）」などと呼ばれることもある。

「ネットワークプリンティング機能」は、端末装置２から画像データを受信し、この画像データに基づいて画像を用紙に印刷する機能である。「ネットワークプリント」または「ＰＣプリント」と呼ばれることもある。

「ボックス機能」は、ユーザごとに「ボックス」または「パーソナルボックス」などと呼ばれる記憶領域を与えておき、各ユーザが自分の記憶領域によって画像データなどのデータを保存し管理するための機能である。ボックスは、パーソナルコンピュータにおける「フォルダ」または「ディレクトリ」に相当する。

画像形成装置１は、図２に示すように、中央処理装置１０ａ、ＲＡＭ（Random Access Memory）１０ｂ、ＲＯＭ（Read Only Memory）１０ｃ、大容量記憶装置１０ｄ、タッチパネルディスプレイ１０ｅ、ハードキーパネル１０ｆ、ＮＩＣ（Network Interface Card）１０ｇ、モデム１０ｈ、スキャンユニット１０ｉ、およびプリントユニット１０ｊなどによって構成される。

タッチパネルディスプレイ１０ｅは、ユーザへメッセージを与えるための画面、処理の結果を示す画面、またはユーザが画像形成装置１に対してデータおよび指令を入力するための画面などを適宜、選択的に表示する。また、タッチパネルディスプレイ１０ｅは、タッチされた位置を検知し、中央処理装置１０ａへその位置を通知する。

ハードキーパネル１０ｆは、テンキー、スタートキー、ストップキー、およびファンクションキーなど、ソフトウェアキーでないキー、つまり、いわゆるハードウェアキーによって構成される。

ユーザは、タッチパネルディスプレイ１０ｅまたはハードキーパネル１０ｆを操作することによって、画像形成装置１に対して指令を与えたりデータを入力したりすることができる。

ＮＩＣ１０ｇは、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）などのプロトコルによって端末装置２およびイントラネット４の外部のサーバなどの装置と通信を行うための装置である。

モデム１０ｈは、Ｇ３などのプロトコルでファックス端末と通信を行うための装置である。

スキャンユニット１０ｉは、用紙に記されている文字列、写真、絵、または図表などのドキュメントを読み取って画像データを生成する。

プリントユニット１０ｊは、スキャンユニット１０ｉによって得られた画像データまたは他の装置から受信された画像データに基づいて用紙にドキュメントを印刷する。

ＲＯＭ１０ｃまたは大容量記憶装置１０ｄには、図３に示すプロファイルデータ記憶部１０１、プロファイル登録処理部１０２、および文書検索部１０３などの機能を実現するためのプログラムが記憶されている。このプログラムは、必要に応じてＲＡＭ１０ｂにロードされ、中央処理装置１０ａによって実行される。

プロファイルデータ記憶部１０１は、ユーザごとの個人プロファイルデータ５ＫＤ（図４参照）を記憶する。プロファイル登録処理部１０２は、個人プロファイルデータ５ＫＤの登録および更新に関する処理を行う。文書検索部１０３は、個人プロファイルデータ５ＫＤに基づいて文書を検索する。プロファイルデータ記憶部１０１、プロファイル登録処理部１０２、および文書検索部１０３の詳細については、後述する。

大容量記憶装置１０ｄとして、ハードディスクまたはＳＳＤ（Solid State Drive）などの不揮発性の記録媒体が用いられる。中央処理装置１０ａとして、ＣＰＵ（Central Processing Unit）またはＭＰＵ（Micro Processing Unit）などが用いられる。

端末装置２は、画像形成装置１が提供するサービスをユーザが利用するためのクライアントである。端末装置２として、パーソナルコンピュータ、スマートフォン、またはタブレットコンピュータなどが用いられる。

図４は、個人プロファイルデータ５ＫＤの例を示す図である。図５は、ワードネットワークの例を示す図である。図６は、プロファイル登録処理部１０２の構成の例を示す図である。図７は、文書ごとのワードネットワークの例を示す図である。図８は、統合したワードネットワークの例を示す図である。図９は、文書検索部１０３の構成の例を示す図である。図１０は、検索指令画面７１の例を示す図である。

次に、図３に示す画像形成装置１の各部の役割を、図４などの図面を参照しながら説明する。

プロファイルデータ記憶部１０１は、上述の通り、ユーザごとの個人プロファイルデータ５ＫＤを記憶する。

個人プロファイルデータ５ＫＤには、図４に示すように、文書別ネットワークデータ５ＢＤおよび総合ネットワークデータ５ＳＤが含まれる。個人プロファイルデータ５ＫＤには、これが与えられたユーザのユーザコードが対応付けられている。

文書別ネットワークデータ５ＢＤは、そのユーザがアクセスして使用した文書（ドキュメント）ごとに設けられ、その文書を識別する文書識別子が対応付けられている。

文書別ネットワークデータ５ＢＤには、単語一覧データ５ＷＴおよびペア一覧データ５ＰＴが含まれる。単語一覧データ５ＷＴは、単語ごとの出現回数ＣＷａを示す。「出現回数」は、その文書にその単語が出現する回数である。ペア一覧データ５ＰＴは、２つの単語のペアごとの共起回数ＣＰａを示す。「共起回数」は、そのペアを構成する２つ単語を両方とも含むセンテンスがその文書に出現する回数である。例えば、「検証」および「仮説」を両方とも含むセンテンスがその文書に７つあった場合は、「検証仮説」ペアの共起回数ＣＰａは、７である。

また、単語一覧データ５ＷＴおよびペア一覧データ５ＰＴは、その文書全体における単語同士の繋がりを表わしていると、言える。以下、単語同士の繋がりを「ワードネットワーク」と記載する。例えば、図４の、文書識別子が「Ｂ００００１」である文書別ネットワークデータ５ＢＤは、図５のようなワードネットワークを表わしている。

総合ネットワークデータ５ＳＤは、そのユーザがアクセスした各文書の文書別ネットワークデータ５ＢＤを纏めたものである。総合ネットワークデータ５ＳＤには、単語一覧データ５ＷＵおよびペア一覧データ５ＰＵが含まれる。単語一覧データ５ＷＵは、単語ごとの総出現回数ＳＷａを示す。「総出現回数」は、その単語の、ユーザがアクセスした各文書の出現回数ＣＷａの合計である。ペア一覧データ５ＰＵは、ペアごとの総共起回数ＳＰａを示す。「総共起回数」は、そのペアの、ユーザがアクセスした各文書の共起回数ＣＰａの合計である。

図３のプロファイル登録処理部１０２は、上述の通り、個人プロファイルデータ５ＫＤの登録および更新のための処理を行う。以下、この処理の仕組みを説明する。

プロファイル登録処理部１０２は、図６に示すように、文書アクセス検知部１２１、アクセス文書データ取得部１２２、単語抽出部１２３、単語出現回数カウント部１２４、ペア抽出部１２５、ペア共起回数カウント部１２６、アクセスユーザ判別部１２７、およびプロファイル更新部１２８などによって構成される。

文書アクセス検知部１２１は、ユーザが文書にアクセスしたことを、例えば次のように検知する。

文書アクセス検知部１２１は、文書の閲覧用のアプリケーションの動作を監視する。そして、このアプリケーションによってデータが開かれ、文書の画像がタッチパネルディスプレイ１０ｅに表示されたら、文書へのアクセスがあったと検知する。

アクセス文書データ取得部１２２は、ユーザがアクセスした文書のデータ（以下、「文書データ５０」と記載する。）を、例えば次のように取得する。

文書データ５０がボックスに保存されていれば、アクセス文書データ取得部１２２は、文書データ５０を、ボックスから読み出すことによって取得する。または、インターネット上のサーバからダウンロードされたのであれば、アクセス文書データ取得部１２２は、文書データ５０を、ウェブブラウザ用の所定のフォルダ（例えば、テンポラリフォルダ）から読み出すことによって取得する。所定のフォルダに残っていない場合は、インターネット上のサーバからダウンロードすることによって取得する。

文書データ５０として、ＰＤＦ（Portable Document Format）のファイル、テキストファイル、リッチテキストファイル、または文書作成用のアプリケーションで作成されたファイルなどが用いられる。後述する文書データ５１も同様である。

単語抽出部１２３は、文書データ５０がアクセス文書データ取得部１２２によって取得されると、文書データ５０に示される文書に出現する単語を抽出する。抽出は、公知の方法によって行うことができる。例えば、形態素解析の方法によって行えばよい。また、特定の品詞（例えば、名詞）の単語のみを抽出すればよい。

単語出現回数カウント部１２４は、単語抽出部１２３によって抽出された単語ごとの出現回数ＣＷａを計数（カウント）する。

ペア抽出部１２５は、この文書に出現する各センテンスの中から、異なる２つの単語を抽出しペアを生成する。ある１つのセンテンスに異なるＭ個の単語（ただし、単語抽出部１２３によって抽出される品詞の単語）が含まれる場合は、このセンテンスからは（Ｍ×（Ｍ−１）／２）個のペアが抽出される。なお、出現回数ＣＷａが所定の回数α１未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。または、この文書の量（例えば、全単語数または全ページ数）に対する出現回数ＣＷａの割合が所定の値γ１未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。

ペア共起回数カウント部１２６は、ペア抽出部１２５によって抽出されたペアごとの共起回数ＣＰａを計数する。

アクセスユーザ判別部１２７は、文書にアクセスしたユーザを判別する。例えば、画像形成装置１に現在ログインしているユーザをオペレーティングシステムに問い合わせることによって、判別すればよい。

プロファイル更新部１２８は、文書にアクセスしたユーザがアクセスユーザ判別部１２７によって判別されると、このユーザの個人プロファイルデータ５ＫＤ（図４参照）を次のように更新する。

プロファイル更新部１２８は、単語抽出部１２３によって抽出された各単語および単語出現回数カウント部１２４によってカウントされた各単語の出現回数ＣＷａを示すデータを、単語一覧データ５ＷＴとして生成する。ペア抽出部１２５によって抽出された各ペアおよびペア共起回数カウント部１２６によってカウントされた各ペアの共起回数ＣＰａを示すデータを、ペア一覧データ５ＰＴとして生成する。この単語一覧データ５ＷＴおよびペア一覧データ５ＰＴを含むデータを、文書別ネットワークデータ５ＢＤとして生成する。そして、この文書別ネットワークデータ５ＢＤを、この文書の文書識別子と対応付けて個人プロファイルデータ５ＫＤに加える。なお、いずれのペアにも含まれない単語のデータは、単語一覧データ５ＷＴに含めないようにしてもよい。

ただし、このユーザの個人プロファイルデータ５ＫＤが未だプロファイルデータ記憶部１０１に記憶されていない場合は、プロファイル更新部１２８は、空の単語一覧データ５ＷＵおよびペア一覧データ５ＰＵを有する総合ネットワークデータ５ＳＤを含む個人プロファイルデータ５ＫＤを生成し、このユーザのユーザコードに対応付けてプロファイルデータ記憶部１０１に保存する。そして、この個人プロファイルデータ５ＫＤに、生成した文書別ネットワークデータ５ＢＤを加える。

さらに、プロファイル更新部１２８は、総合ネットワークデータ５ＳＤを次のように更新する。

プロファイル更新部１２８は、単語抽出部１２３によって抽出された単語ごとに、次の処理を行う。単語一覧データ５ＷＵの中から、この単語のレコード（行）を検索する。そして、この単語の出現回数ＣＷａをこのレコードの総出現回数ＳＷａに加算する。この単語のレコードがない場合は、この単語を示しかつ総出現回数ＳＷａとしてこの出現回数ＣＷａと同じ値を示すレコードを生成し、単語一覧データ５ＷＵに追加する。なお、いずれのペアにも含まれない単語については、処理を行わなくてもよい。

単語一覧データ５ＷＵの更新と前後してまたは並行して、プロファイル更新部１２８は、ペア抽出部１２５によって抽出されたペアごとに、次の処理を行う。ペア一覧データ５ＰＵの中から、このペアのレコードを検索する。そして、このペアの共起回数ＣＰａを、このレコードの総共起回数ＳＰａに加算する。このペアのレコードがない場合は、このペアを示しかつ総共起回数ＳＰａとしてこの共起回数ＣＰａと同じ値を示すレコードを生成し、ペア一覧データ５ＰＵに追加する。

文書アクセス検知部１２１ないしプロファイル更新部１２８の以上の処理によって、個人プロファイルデータ５ＫＤの登録および更新がなされる。

例えば、あるユーザが、これまでに２つの文書にアクセスしたとする。そして、それぞれの文書の文書別ネットワークデータ５ＢＤが図７（Ａ）および（Ｂ）に示すワードネットワークを表わしているとする。このような場合は、プロファイル登録処理部１０２によって、図８に示すようなワードネットワークを表わす総合ネットワークデータ５ＳＤが得られる。図７および図８において、下線を付した数字は、出現回数を表わしている。下線を付していない数字は、共起回数を表わしている。図１２においても、同様である。

ただし、あるユーザが既にある文書にアクセスしたことがあるこの文書の文書別ネットワークデータ５ＢＤがこのユーザの個人プロファイルデータ５ＫＤに登録されている場合は、プロファイル登録処理部１０２による上述の処理はスキップされる。

図３の文書検索部１０３は、上述の通り、個人プロファイルデータ５ＫＤに基づいて文書を検索する。文書検索部１０３は、文書およびユーザが指定されると、指定された文書に類似しかつ指定されたユーザにとって関心が高いと思われる文書を検索する。以下、この仕組みを説明する。

文書検索部１０３は、図９に示すように、検索キー文書指定受付部１３１、検索キー文書データ取得部１３２、単語抽出部１３３、単語出現回数カウント部１３４、ペア抽出部１３５、ペア共起回数カウント部１３６、プロファイルデータ読出部１３７、特徴ペア判別部１３８、検索クエリ生成部１３９、および文書検索処理部１３０などによって構成される。

検索キー文書指定受付部１３１は、いわゆる検索キーに相当する文書（以下、「検索キー文書」と記載する。）などの指定を受け付ける処理を、例えば次のように実行する。

検索キー文書指定受付部１３１は、図１０に示すような検索指令画面７１をタッチパネルディスプレイ１０ｅに表示させる。ここで、検索者は、検索キー文書を、この検索キー文書の文書データ５１のパスをテキストボックス７１１に入力することによって指定する。さらに、ユーザを、このユーザのユーザコードをテキストボックス７１２に入力することによって指定する。そして、ボタン７１３をタッチする。以下、指定されたユーザを「指定ユーザ」と記載する。

すると、検索キー文書指定受付部１３１は、テキストボックス７１１に入力されたパスおよびテキストボックス７１２に入力されたユーザコードを受け付ける。

なお、検索者は、自分自身にとって関心の高い内容が含まれると思われる文書を検索させることもできる。この場合は、検索者自身のユーザコードをテキストボックス７１２に入力すればよい。

検索キー文書データ取得部１３２は、パスおよびユーザコードが検索キー文書指定受付部１３１によって受け付けられると、このパスに基づいて文書データ５１を、ボックスから読み出しまたはサーバからダウンロードするなどして取得する。

単語抽出部１３３は、検索キー文書データ取得部１３２によって文書データ５１が取得されると、文書データ５１に示される文書に出現する単語を抽出する。抽出の方法は、単語抽出部１２３による抽出の方法と同様である。

単語出現回数カウント部１３４は、単語抽出部１３３によって抽出された単語ごとの出現回数ＣＷｂを計数（カウント）する。

ペア抽出部１３５は、文書データ５１に示される文書に出現する各センテンスの中から、２つの単語からなるペアを抽出する。なお、ペア抽出部１２５（図６参照）と同様、出現回数ＣＷｂが所定の回数α２未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。または、この文書の量に対する出現回数ＣＷｂの割合が所定の値γ２未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。

ペア共起回数カウント部１３６は、ペア抽出部１３５によって抽出されたペアごとの共起回数ＣＰｂを計数する。

プロファイルデータ読出部１３７は、検索キー文書指定受付部１３１によって受け付けられたユーザコードに対応付けられている個人プロファイルデータ５ＫＤ（図４参照）をプロファイルデータ記憶部１０１から読み出す。

特徴ペア判別部１３８は、単語抽出部１３３ないしプロファイルデータ読出部１３７によって得られた情報に基づいて、特徴ペアを判別する。「特徴ペア」は、検索キー文書に現われるペアのうち、指定ユーザにとって関心が特に高いと思われるペアである。ここで、判別の方法の例を、フローチャートなどを参照しながら説明する。

〔第一の方法〕
図１１は、特徴ペア判別処理の流れの例を説明するフローチャートである。図１２は、検索キー文書のワードネットワークの例を示す図である。

特徴ペア判別部１３８は、個人プロファイルデータ５ＫＤのペア一覧データ５ＰＵから、ペア抽出部１３５によって抽出されたペアごとのレコードを抽出する（図１１の＃８０１）。抽出したレコードの中から、総共起回数ＳＰａが最も大きいレコードを抽出する（＃８０２）。そして、抽出したレコードに示されるペアを、特徴ペアとして判別する（＃８０３）。

例えば、このペア一覧データ５ＰＵによって表わされるワードネットワークが図８の通りであり、単語抽出部１３３ないしペア共起回数カウント部１３６によって得られた情報によって表わされるワードネットワークが図１２の通りであるとする。この場合は、両ワードネットワークを比較して分かるように、「提供価値ワーク」ペアと「提供価値プロトタイプ」ペアとが抽出される。これらのペアのうち、最も大きい総共起回数ＳＰａを有するのは、「提供価値ワーク」ペアである。よって、特徴ペア判別部１３８の処理によると、「提供価値ワーク」ペアが特徴ペアであると、判別される。

なお、ペア抽出部１３５によって抽出されたペアには、あまり重要でないペアも含まれている可能性がある。

そこで、ステップ＃８０１において、個人プロファイルデータ５ＫＤのペア一覧データ５ＰＵから、ペア抽出部１３５によって抽出されたペアすべてのレコードを抽出するのではなく、共起回数ＣＰｂが所定の値以上であるペアのレコードのみを抽出してもよい。または、検索キー文書の量に対する共起回数ＣＰｂの割合が所定の値以上であるペアのレコードのみを抽出してもよい。

ステップ＃８０３において、複数のペアが抽出される場合は、ペアごとにそれを構成する２つの単語の総出現回数ＳＷａの和を算出し、和が最も大きいペアを特徴ペアとして選出してもよい。

〔第二の方法〕
図１３は、特徴ペア判別処理の流れの変形例を説明するフローチャートである。

特徴ペア判別部１３８は、第一の方法と同様に、個人プロファイルデータ５ＫＤのペア一覧データ５ＰＵから、ペア抽出部１３５によって抽出されたペアごとのレコードを抽出する（図１３の＃８１１）。抽出したレコードの中から、総共起回数ＳＰａが閾値ＳＰｃ以上であるレコードを抽出する（＃８１２）。そして、抽出したレコードに示されるペアを、特徴ペアとして判別する（＃８１３）。

閾値ＳＰｃは、指定ユーザのアクセスした文書の量によって決まる。例えば、
ＳＰｃ＝β×ＢＫ
によって求められる。「β」は、正の所定の値である。「ＢＫ」は、指定ユーザのアクセスした文書の数であって、指定ユーザの個人プロファイルデータ５ＫＤに含まれる文書別ネットワークデータ５ＢＤの個数に等しい。文書の量は、アクセスした文書すべての単語数またはページ数であってもよい。

つまり、第二の方法によると、ユーザのアクセスした文書の量に対する総共起回数ＳＰａの割合が所定の値以上であるペアをすべて、特徴ペアとして判別する。

〔第三の方法〕
図１４は、特徴ペア判別処理の流れの変形例を説明するフローチャートである。

特徴ペア判別部１３８は、第一の方法および第二の方法と同様に、個人プロファイルデータ５ＫＤのペア一覧データ５ＰＵから、ペア抽出部１３５によって抽出されたペアごとのレコードを抽出する（図１４の＃８２１）。抽出した各ペアを構成する各単語のレコードを、単語一覧データ５ＷＵから抽出する（＃８２２）。これらのレコードに基づいて、各ペアの特徴度数ＣＲを算出する（＃８２３）。「特徴度数」は、そのペアの総共起回数ＳＰａとそのペアを構成する２つの単語の総出現回数ＳＷａの和である。例えば、単語一覧データ５ＷＵおよびペア一覧データ５ＰＵが表わすワードネットワークが図８の通りである場合は、「提供価値ワーク」ペアの特徴度数ＣＲは、４＋１４＋８＝２６、である。また、「提供価値プロトタイプ」ペアの特徴度数ＣＲは、２＋１４＋３＝２０、である。

そして、特徴ペア判別部１３８は、特徴度数ＣＲが最も大きいペアを、特徴ペアとして判別する（＃８２４）。

なお、第二の方法と同様に、検索キー文書の量に対する特徴度数ＣＲの割合が所定の値以上であるペアをすべて、特徴ペアとして判別してもよい。

図１５は、検索結果画面７２の例を示す図である。

図９に戻って、検索クエリ生成部１３９は、特徴ペア判別部１３８によって特徴ペアが判別されると、この特徴ペアを構成する２つの単語をＡＮＤ演算子で繋いだ式を検索クエリ（検索式）として生成する。

文書検索処理部１３０は、この検索クエリに基づいて、ボックスまたは他の装置のストレージの中から文書の文書データを検索する。つまり、特徴ペアの２つの単語を両方含む文書の文書データを検索する。そして、図１５のような、検索結果を示す検索結果画面７２をタッチパネルディスプレイ１０ｅに表示させる。なお、他の装置の検索エンジンに検索を行わせてもよい。この場合は、検索クエリを他の装置の検索エンジンに対して指定すればよい。

なお、特徴ペアが複数ある場合は、検索クエリ生成部１３９は、それぞれのペアについて、検索クエリを生成する。そして、文書検索処理部１３０は、それぞれの検索クエリに基づいて検索を行う。または、「（提供価値ＡＮＤワーク）ＯＲ（提供価値ＯＲプロトタイプ）」のように複数の検索クエリをＯＲ演算子で繋ぎ、纏めて検索を行ってもよい。

図１６は、文書の検索に関する全体的な処理の流れの例を説明するフローチャートである。

次に、画像形成装置１における文書の検索に関する全体的な処理の流れを、図１６のフローチャートを参照しながら説明する。

画像形成装置１は、イベントが発生するごとに、そのイベントに応じた処理を次のように実行する。

画像形成装置１は、文書へアクセスした場合は（＃１１でＹｅｓ）、この文書のアクセスのコマンドを入力したユーザを判別する（＃１２）。この文書の文書データ５０を取得し（＃１３）、この文書に出現する単語を抽出し（＃１４）、各単語の出現回数ＣＷａを数える（＃１５）。さらに、単語同士のペアの共起回数ＣＰａを数える（＃１６）。出現回数ＣＷａが所定の回数α１未満である単語は、この文書に出現しないものとして取り扱ってもよい。

そして、画像形成装置１は、このユーザの個人プロファイルデータ５ＫＤ（図４参照）がなければ（＃１７でＮｏ）、ステップ＃１５、＃１６の結果に基づいてこのユーザの個人プロファイルデータ５ＫＤを生成する（＃１８）。このユーザの個人プロファイルデータ５ＫＤがあれば（＃１７でＹｅｓ）、この個人プロファイルデータ５ＫＤを、ステップ＃１５、＃１６の結果に基づいて更新する（＃１９）。

または、検索者が検索用の所定のコマンドを入力すると（＃１１でＮｏ、＃２１でＹｅｓ）、画像形成装置１は、検索指令画面７１（図１０参照）を表示し、検索キー文書のパスおよびユーザのユーザコードを検索条件として受け付ける（＃２２）。

画像形成装置１は、この検索キー文書の文書データ５１を取得し（＃２３）、この検索キー文書に出現する単語を抽出し（＃２４）、各単語の出現回数ＣＷｂを数える（＃２５）。さらに、単語同士のペアの共起回数ＣＰｂを数える（＃２６）。出現回数ＣＷｂが所定の回数α２未満である単語は、この検索キー文書に出現しないものとして取り扱ってもよい。ステップ＃２３〜＃２６の処理と並行してまたは前後して、このユーザの個人プロファイルデータ５ＫＤをプロファイルデータ記憶部１０１から読み出す（＃２７）。

画像形成装置１は、各単語の出現回数ＣＷｂ、共起回数ＣＰｂ、および個人プロファイルデータ５ＫＤに基づいて特徴ペアを判別する（＃２８）。判別の方法の例は、前に図１１、図１３、および図１５で説明した通りである。

そして、画像形成装置１は、判別した特徴ペアに基づいて検索クエリを生成し（＃２９）、文書を検索しその結果を図１５のように表示する（＃３０）。

発生したイベントが文書へのアクセスでも検索用の所定のコマンドの入力でもない場合は（＃１１でＮｏ、＃２１でＮｏ）、画像形成装置１は、そのイベントに応じた従来の処理を実行する（＃３１）。

本実施形態によると、検索者が指定した特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することができる。

本実施形態では、ペアは、２つの単語によって構成されたが、３つ以上の単語によって構成されてもよい。

本実施形態では、ペアの共起回数として、そのペアの現われるセンテンスの数を用いた。しかし、センテンス以外の塊（クラスタ）であってもよい。例えば、そのペアの現われる段落の数をペアの共起回数として用いてもよい。または、そのペアの現われる章、項、または節の数をペアの共起回数として用いてもよい。

本実施形態では、文書から単語を抽出する技術として形態素解析を用いたが、文書の言語に応じて他の技術を用いてもよい。例えば、英語で記載される文書であれば、スペース、カンマ、ピリオド、コロン、またはセミコロンなどの符号で区切られる文字列を単語として抽出すればよい。

検索者は、検索キー文書として、指定したユーザが既にアクセスしたことのある文書を指定してもよい。この場合は、この文書の単語およびペアに関するデータが、このユーザの個人プロファイルデータ５ＫＤに既に含まれている。そこで、検索キー文書指定受付部１３１ないしペア共起回数カウント部１３６（図９参照）の処理を行わなくてもよい。そして、各処理の結果の代わりに、この個人プロファイルデータ５ＫＤに含まれる、この文書の文書別ネットワークデータ５ＢＤを用いて、特徴ペアの判別を行えばよい。

例えば、文書識別子が「Ｂ００００４」の文書およびユーザコード「Ｕ０００１」が検索者によって指定され、かつ、「Ｂ００００４」に対応する文書別ネットワークデータ５ＢＤが「Ｕ０００１」に対応する個人プロファイルデータ５ＫＤに含まれている場合は、この文書別ネットワークデータ５ＢＤに示される出現回数ＣＷａおよび共起回数ＣＰａを、出現回数ＣＷｂおよび共起回数ＣＰｂの代わりに用いて特徴ペアを判別すればよい。

本実施形態では、本発明を画像形成装置１に適用した場合を例に説明したが、パーソナルコンピュータ、スマートフォン、携帯電話端末、サーバなど他の情報処理装置にも本発明を適用することができる。

その他、イントラネット４、画像形成装置１の全体または各部の構成、処理内容、処理順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。

１画像形成装置（関心事判別装置）
１０１プロファイルデータ記憶部（実績記憶手段）
１３０文書検索処理部（検索手段）
１３１検索キー文書指定受付部（指定手段）
１０ｅタッチパネルディスプレイ（指定手段）
７１検索指令画面（指定手段）
１３８特徴ペア判別部（関心ペア判別手段）
５ＫＤ個人プロファイルデータ

Claims

ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書の中の同一のクラスタに現われる回数である共起回数を当該ユーザに対応付けて記憶する、実績記憶手段と、
第二の文書および前記ユーザのうちのいずれか１人を検索者が指定するための指定手段と、
前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われかつ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、
を有することを特徴とする関心事判別装置。
前記所定の条件は、他のいずれのペアの共起回数よりも多いことである、
請求項１に記載の関心事判別装置。
前記所定の条件は、前記第一の文書の量に対する割合が所定の割合以上であることである、
請求項１に記載の関心事判別装置。
前記ペアは、前記第一の文書に現われる割合が所定の割合以上である単語からなるペアである、
請求項１ないし請求項３のいずれかに記載の関心事判別装置。
前記関心ペアを構成する複数の単語をすべて含む文書を検索する検索手段、を有する、
請求項１ないし請求項４のいずれかに記載の関心事判別装置。
ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書の中の同一のクラスタに現われる回数である共起回数を当該ユーザに対応付けて実績記憶手段に記憶させておき、
第二の文書および前記ユーザのうちのいずれか１人の指定を受け付け、
前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われかつ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、
ことを特徴とする関心事判別方法。
ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書の中の同一のクラスタに現われる回数である共起回数を当該ユーザに対応付けて実績記憶手段に記憶させる処理と、
第二の文書および前記ユーザのうちのいずれか１人の指定を受け付ける処理と、
前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われかつ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する処理と、
をコンピュータに実行させる、
ことを特徴とするコンピュータプログラム。