JP5900419B2 - 関心事判別装置、関心事判別方法、およびコンピュータプログラム - Google Patents

関心事判別装置、関心事判別方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP5900419B2
JP5900419B2 JP2013122309A JP2013122309A JP5900419B2 JP 5900419 B2 JP5900419 B2 JP 5900419B2 JP 2013122309 A JP2013122309 A JP 2013122309A JP 2013122309 A JP2013122309 A JP 2013122309A JP 5900419 B2 JP5900419 B2 JP 5900419B2
Authority
JP
Japan
Prior art keywords
document
pair
user
interest
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013122309A
Other languages
English (en)
Other versions
JP2014240999A (ja
Inventor
河渕 洋一
洋一 河渕
聡史 出石
聡史 出石
香美 森脇
香美 森脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2013122309A priority Critical patent/JP5900419B2/ja
Priority to US14/297,659 priority patent/US9607076B2/en
Publication of JP2014240999A publication Critical patent/JP2014240999A/ja
Application granted granted Critical
Publication of JP5900419B2 publication Critical patent/JP5900419B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザにとっての関心事を表わす複数の単語を判別する技術に関する。
従来、情報を検索する種々の技術が提案されている。例えば、検索者が検索キーとして指定した単語が含まれている文書を検索する技術が普及している。
より高度な技術も提案されている。特許文献1に記載される技術によると、ユーザから画像とともに文章が入力された場合、入力された文章中の単語間の関連情報を関連情報抽出部によって抽出し、関連情報記録部に記録しておく。その後、新たに文章が入力された場合に、入力された文章中の関連情報を抽出し、抽出した関連情報と関連情報記録部に記録されている関連情報とを比較して、類似する関連情報に関連付けられた画像を呈示する。
特許文献2に記載される技術によると、検索要求に含まれる単語と、文書情報の集合内の各文書情報に含まれる単語との関連に基づいて、文書情報の集合から少なくとも1つの文書情報を含む候補文書情報の集合を検索する。そして、検索要求における単語間の関係と、候補文書情報の各々における単語間の関係に基づいて、候補文書情報の集合から検索要求に関連する文書情報を検索する。
特許文献3に記載される技術によると、単語を指定して検索を行ない対象となる文書群を選別する。文書を形態素解析して単語を抽出し、頻出数に基づいて着目単語を選ぶ。着目単語の共起関係(共起グラフ)を、各文書の文単位で検出する。多くの文書に含まれる共起グラフを概念グラフとして選び、概念グラフを含むかどうかにより書く文書の概念ベクトルを決定する。概念ベクトルに従って文書を分類し表示し、選択できるようにする。
特開2008−242515号公報 特開2003−281183号公報 特開2002−56009号公報
ところで、あるユーザが、ある文書を読んでいるときに、この文書に関連しかつこのユーザ自身にとって関心のある他の文書を参照したくなる場合がある。または、あるユーザが、ある文書を読んでいるときに、この文書に関連しかつ他のユーザにとって関心のある他の文書を参照したくなる場合がある。
これらの場合に、関心事を示す複数の単語をいわゆる検索キーとして検索を行うことが、考えられる。複数の単語を用いることによって、参照したい文書をより確実に絞り込むことができる。
しかし、どのような事項に関心があるのかは、ユーザごとに異なる。よって、検索キーとして用いる複数の単語を決めることが難しい。
文書の中の注目している箇所を、開いているページを検知したりユーザの視線を検知したりすることによって判別する技術も、提案されている。しかし、これらの技術は、大掛かりである。
本発明は、このような問題点に鑑み、特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することを、目的とする。
本実施形態に係る関心事判別装置は、ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書に現われるクラスタの数である共起回数を当該ユーザに対応付けて記憶する、実績記憶手段と、第二の文書および前記ユーザのうちのいずれか1人を検索者が指定するための指定手段と、前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われたペアの中で、指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、を有する。
好ましくは、前記所定の条件は、最も大きい共起回数であることである。または、前記所定の条件は、前記第一の文書の量に対する割合が所定の割合以上であることである。
好ましくは、前記ペアは、前記第一の文書に現われる割合が所定の割合以上である単語からなるペアである。
または、前記関心ペアを構成する複数の単語をすべて含む文書を検索する検索手段、を有する。
本発明によると、特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することができる。
イントラネットの全体的な構成の例を示す図である。 画像形成装置のハードウェア構成の例を示す図である。 画像形成装置の機能的構成の例を示す図である。 個人プロファイルデータの例を示す図である。 ワードネットワークの例を示す図である。 プロファイル登録処理部の構成の例を示す図である。 文書ごとのワードネットワークの例を示す図である。 統合したワードネットワークの例を示す図である。 文書検索部の構成の例を示す図である。 検索指令画面の例を示す図である。 特徴ペア判別処理の流れの例を説明するフローチャートである。 検索キー文書のワードネットワークの例を示す図である。 特徴ペア判別処理の流れの変形例を説明するフローチャートである。 特徴ペア判別処理の流れの変形例を説明するフローチャートである。 検索結果画面の例を示す図である。 文書の検索に関する全体的な処理の流れの例を説明するフローチャートである。
図1は、イントラネット4の全体的な構成の例を示す図である。図2は、画像形成装置1のハードウェア構成の例を示す図である。図3は、画像形成装置1の機能的構成の例を示す図である。
図1に示すように、イントラネット4は、画像形成装置1、1台または複数台の端末装置2、および通信回線3などによって構成される。
画像形成装置1と各端末装置2とは、通信回線3を介して通信を行うことができる。通信回線3として、いわゆるLAN(Local Area Network)回線、公衆回線、専用線、またはインターネットなどが用いられる。
イントラネット4は、企業、役所、または学校などの団体のメンバによって使用される。したがって、各メンバがイントラネット4のユーザである。ユーザには、個々を識別するためのユニークなユーザコードが与えられている。
画像形成装置1は、コピー、ネットワークプリンティング、スキャン、ファックス、およびボックスなどの機能を集約した装置である。一般に、「複合機」または「MFP(Multi Function Peripherals)」などと呼ばれることもある。
「ネットワークプリンティング機能」は、端末装置2から画像データを受信し、この画像データに基づいて画像を用紙に印刷する機能である。「ネットワークプリント」または「PCプリント」と呼ばれることもある。
「ボックス機能」は、ユーザごとに「ボックス」または「パーソナルボックス」などと呼ばれる記憶領域を与えておき、各ユーザが自分の記憶領域によって画像データなどのデータを保存し管理するための機能である。ボックスは、パーソナルコンピュータにおける「フォルダ」または「ディレクトリ」に相当する。
画像形成装置1は、図2に示すように、中央処理装置10a、RAM(Random Access Memory)10b、ROM(Read Only Memory)10c、大容量記憶装置10d、タッチパネルディスプレイ10e、ハードキーパネル10f、NIC(Network Interface Card)10g、モデム10h、スキャンユニット10i、およびプリントユニット10jなどによって構成される。
タッチパネルディスプレイ10eは、ユーザへメッセージを与えるための画面、処理の結果を示す画面、またはユーザが画像形成装置1に対してデータおよび指令を入力するための画面などを適宜、選択的に表示する。また、タッチパネルディスプレイ10eは、タッチされた位置を検知し、中央処理装置10aへその位置を通知する。
ハードキーパネル10fは、テンキー、スタートキー、ストップキー、およびファンクションキーなど、ソフトウェアキーでないキー、つまり、いわゆるハードウェアキーによって構成される。
ユーザは、タッチパネルディスプレイ10eまたはハードキーパネル10fを操作することによって、画像形成装置1に対して指令を与えたりデータを入力したりすることができる。
NIC10gは、TCP/IP(Transmission Control Protocol/Internet Protocol)などのプロトコルによって端末装置2およびイントラネット4の外部のサーバなどの装置と通信を行うための装置である。
モデム10hは、G3などのプロトコルでファックス端末と通信を行うための装置である。
スキャンユニット10iは、用紙に記されている文字列、写真、絵、または図表などのドキュメントを読み取って画像データを生成する。
プリントユニット10jは、スキャンユニット10iによって得られた画像データまたは他の装置から受信された画像データに基づいて用紙にドキュメントを印刷する。
ROM10cまたは大容量記憶装置10dには、図3に示すプロファイルデータ記憶部101、プロファイル登録処理部102、および文書検索部103などの機能を実現するためのプログラムが記憶されている。このプログラムは、必要に応じてRAM10bにロードされ、中央処理装置10aによって実行される。
プロファイルデータ記憶部101は、ユーザごとの個人プロファイルデータ5KD(図4参照)を記憶する。プロファイル登録処理部102は、個人プロファイルデータ5KDの登録および更新に関する処理を行う。文書検索部103は、個人プロファイルデータ5KDに基づいて文書を検索する。プロファイルデータ記憶部101、プロファイル登録処理部102、および文書検索部103の詳細については、後述する。
大容量記憶装置10dとして、ハードディスクまたはSSD(Solid State Drive)などの不揮発性の記録媒体が用いられる。中央処理装置10aとして、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などが用いられる。
端末装置2は、画像形成装置1が提供するサービスをユーザが利用するためのクライアントである。端末装置2として、パーソナルコンピュータ、スマートフォン、またはタブレットコンピュータなどが用いられる。
図4は、個人プロファイルデータ5KDの例を示す図である。図5は、ワードネットワークの例を示す図である。図6は、プロファイル登録処理部102の構成の例を示す図である。図7は、文書ごとのワードネットワークの例を示す図である。図8は、統合したワードネットワークの例を示す図である。図9は、文書検索部103の構成の例を示す図である。図10は、検索指令画面71の例を示す図である。
次に、図3に示す画像形成装置1の各部の役割を、図4などの図面を参照しながら説明する。
プロファイルデータ記憶部101は、上述の通り、ユーザごとの個人プロファイルデータ5KDを記憶する。
個人プロファイルデータ5KDには、図4に示すように、文書別ネットワークデータ5BDおよび総合ネットワークデータ5SDが含まれる。個人プロファイルデータ5KDには、これが与えられたユーザのユーザコードが対応付けられている。
文書別ネットワークデータ5BDは、そのユーザがアクセスして使用した文書(ドキュメント)ごとに設けられ、その文書を識別する文書識別子が対応付けられている。
文書別ネットワークデータ5BDには、単語一覧データ5WTおよびペア一覧データ5PTが含まれる。単語一覧データ5WTは、単語ごとの出現回数CWaを示す。「出現回数」は、その文書にその単語が出現する回数である。ペア一覧データ5PTは、2つの単語のペアごとの共起回数CPaを示す。「共起回数」は、そのペアを構成する2つ単語を両方とも含むセンテンスがその文書に出現する回数である。例えば、「検証」および「仮説」を両方とも含むセンテンスがその文書に7つあった場合は、「検証 仮説」ペアの共起回数CPaは、7である。
また、単語一覧データ5WTおよびペア一覧データ5PTは、その文書全体における単語同士の繋がりを表わしていると、言える。以下、単語同士の繋がりを「ワードネットワーク」と記載する。例えば、図4の、文書識別子が「B00001」である文書別ネットワークデータ5BDは、図5のようなワードネットワークを表わしている。
総合ネットワークデータ5SDは、そのユーザがアクセスした各文書の文書別ネットワークデータ5BDを纏めたものである。総合ネットワークデータ5SDには、単語一覧データ5WUおよびペア一覧データ5PUが含まれる。単語一覧データ5WUは、単語ごとの総出現回数SWaを示す。「総出現回数」は、その単語の、ユーザがアクセスした各文書の出現回数CWaの合計である。ペア一覧データ5PUは、ペアごとの総共起回数SPaを示す。「総共起回数」は、そのペアの、ユーザがアクセスした各文書の共起回数CPaの合計である。
図3のプロファイル登録処理部102は、上述の通り、個人プロファイルデータ5KDの登録および更新のための処理を行う。以下、この処理の仕組みを説明する。
プロファイル登録処理部102は、図6に示すように、文書アクセス検知部121、アクセス文書データ取得部122、単語抽出部123、単語出現回数カウント部124、ペア抽出部125、ペア共起回数カウント部126、アクセスユーザ判別部127、およびプロファイル更新部128などによって構成される。
文書アクセス検知部121は、ユーザが文書にアクセスしたことを、例えば次のように検知する。
文書アクセス検知部121は、文書の閲覧用のアプリケーションの動作を監視する。そして、このアプリケーションによってデータが開かれ、文書の画像がタッチパネルディスプレイ10eに表示されたら、文書へのアクセスがあったと検知する。
アクセス文書データ取得部122は、ユーザがアクセスした文書のデータ(以下、「文書データ50」と記載する。)を、例えば次のように取得する。
文書データ50がボックスに保存されていれば、アクセス文書データ取得部122は、文書データ50を、ボックスから読み出すことによって取得する。または、インターネット上のサーバからダウンロードされたのであれば、アクセス文書データ取得部122は、文書データ50を、ウェブブラウザ用の所定のフォルダ(例えば、テンポラリフォルダ)から読み出すことによって取得する。所定のフォルダに残っていない場合は、インターネット上のサーバからダウンロードすることによって取得する。
文書データ50として、PDF(Portable Document Format)のファイル、テキストファイル、リッチテキストファイル、または文書作成用のアプリケーションで作成されたファイルなどが用いられる。後述する文書データ51も同様である。
単語抽出部123は、文書データ50がアクセス文書データ取得部122によって取得されると、文書データ50に示される文書に出現する単語を抽出する。抽出は、公知の方法によって行うことができる。例えば、形態素解析の方法によって行えばよい。また、特定の品詞(例えば、名詞)の単語のみを抽出すればよい。
単語出現回数カウント部124は、単語抽出部123によって抽出された単語ごとの出現回数CWaを計数(カウント)する。
ペア抽出部125は、この文書に出現する各センテンスの中から、異なる2つの単語を抽出しペアを生成する。ある1つのセンテンスに異なるM個の単語(ただし、単語抽出部123によって抽出される品詞の単語)が含まれる場合は、このセンテンスからは(M×(M−1)/2)個のペアが抽出される。なお、出現回数CWaが所定の回数α1未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。または、この文書の量(例えば、全単語数または全ページ数)に対する出現回数CWaの割合が所定の値γ1未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。
ペア共起回数カウント部126は、ペア抽出部125によって抽出されたペアごとの共起回数CPaを計数する。
アクセスユーザ判別部127は、文書にアクセスしたユーザを判別する。例えば、画像形成装置1に現在ログインしているユーザをオペレーティングシステムに問い合わせることによって、判別すればよい。
プロファイル更新部128は、文書にアクセスしたユーザがアクセスユーザ判別部127によって判別されると、このユーザの個人プロファイルデータ5KD(図4参照)を次のように更新する。
プロファイル更新部128は、単語抽出部123によって抽出された各単語および単語出現回数カウント部124によってカウントされた各単語の出現回数CWaを示すデータを、単語一覧データ5WTとして生成する。ペア抽出部125によって抽出された各ペアおよびペア共起回数カウント部126によってカウントされた各ペアの共起回数CPaを示すデータを、ペア一覧データ5PTとして生成する。この単語一覧データ5WTおよびペア一覧データ5PTを含むデータを、文書別ネットワークデータ5BDとして生成する。そして、この文書別ネットワークデータ5BDを、この文書の文書識別子と対応付けて個人プロファイルデータ5KDに加える。なお、いずれのペアにも含まれない単語のデータは、単語一覧データ5WTに含めないようにしてもよい。
ただし、このユーザの個人プロファイルデータ5KDが未だプロファイルデータ記憶部101に記憶されていない場合は、プロファイル更新部128は、空の単語一覧データ5WUおよびペア一覧データ5PUを有する総合ネットワークデータ5SDを含む個人プロファイルデータ5KDを生成し、このユーザのユーザコードに対応付けてプロファイルデータ記憶部101に保存する。そして、この個人プロファイルデータ5KDに、生成した文書別ネットワークデータ5BDを加える。
さらに、プロファイル更新部128は、総合ネットワークデータ5SDを次のように更新する。
プロファイル更新部128は、単語抽出部123によって抽出された単語ごとに、次の処理を行う。単語一覧データ5WUの中から、この単語のレコード(行)を検索する。そして、この単語の出現回数CWaをこのレコードの総出現回数SWaに加算する。この単語のレコードがない場合は、この単語を示しかつ総出現回数SWaとしてこの出現回数CWaと同じ値を示すレコードを生成し、単語一覧データ5WUに追加する。なお、いずれのペアにも含まれない単語については、処理を行わなくてもよい。
単語一覧データ5WUの更新と前後してまたは並行して、プロファイル更新部128は、ペア抽出部125によって抽出されたペアごとに、次の処理を行う。ペア一覧データ5PUの中から、このペアのレコードを検索する。そして、このペアの共起回数CPaを、このレコードの総共起回数SPaに加算する。このペアのレコードがない場合は、このペアを示しかつ総共起回数SPaとしてこの共起回数CPaと同じ値を示すレコードを生成し、ペア一覧データ5PUに追加する。
文書アクセス検知部121ないしプロファイル更新部128の以上の処理によって、個人プロファイルデータ5KDの登録および更新がなされる。
例えば、あるユーザが、これまでに2つの文書にアクセスしたとする。そして、それぞれの文書の文書別ネットワークデータ5BDが図7(A)および(B)に示すワードネットワークを表わしているとする。このような場合は、プロファイル登録処理部102によって、図8に示すようなワードネットワークを表わす総合ネットワークデータ5SDが得られる。図7および図8において、下線を付した数字は、出現回数を表わしている。下線を付していない数字は、共起回数を表わしている。図12においても、同様である。
ただし、あるユーザが既にある文書にアクセスしたことがあるこの文書の文書別ネットワークデータ5BDがこのユーザの個人プロファイルデータ5KDに登録されている場合は、プロファイル登録処理部102による上述の処理はスキップされる。
図3の文書検索部103は、上述の通り、個人プロファイルデータ5KDに基づいて文書を検索する。文書検索部103は、文書およびユーザが指定されると、指定された文書に類似しかつ指定されたユーザにとって関心が高いと思われる文書を検索する。以下、この仕組みを説明する。
文書検索部103は、図9に示すように、検索キー文書指定受付部131、検索キー文書データ取得部132、単語抽出部133、単語出現回数カウント部134、ペア抽出部135、ペア共起回数カウント部136、プロファイルデータ読出部137、特徴ペア判別部138、検索クエリ生成部139、および文書検索処理部130などによって構成される。
検索キー文書指定受付部131は、いわゆる検索キーに相当する文書(以下、「検索キー文書」と記載する。)などの指定を受け付ける処理を、例えば次のように実行する。
検索キー文書指定受付部131は、図10に示すような検索指令画面71をタッチパネルディスプレイ10eに表示させる。ここで、検索者は、検索キー文書を、この検索キー文書の文書データ51のパスをテキストボックス711に入力することによって指定する。さらに、ユーザを、このユーザのユーザコードをテキストボックス712に入力することによって指定する。そして、ボタン713をタッチする。以下、指定されたユーザを「指定ユーザ」と記載する。
すると、検索キー文書指定受付部131は、テキストボックス711に入力されたパスおよびテキストボックス712に入力されたユーザコードを受け付ける。
なお、検索者は、自分自身にとって関心の高い内容が含まれると思われる文書を検索させることもできる。この場合は、検索者自身のユーザコードをテキストボックス712に入力すればよい。
検索キー文書データ取得部132は、パスおよびユーザコードが検索キー文書指定受付部131によって受け付けられると、このパスに基づいて文書データ51を、ボックスから読み出しまたはサーバからダウンロードするなどして取得する。
単語抽出部133は、検索キー文書データ取得部132によって文書データ51が取得されると、文書データ51に示される文書に出現する単語を抽出する。抽出の方法は、単語抽出部123による抽出の方法と同様である。
単語出現回数カウント部134は、単語抽出部133によって抽出された単語ごとの出現回数CWbを計数(カウント)する。
ペア抽出部135は、文書データ51に示される文書に出現する各センテンスの中から、2つの単語からなるペアを抽出する。なお、ペア抽出部125(図6参照)と同様、出現回数CWbが所定の回数α2未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。または、この文書の量に対する出現回数CWbの割合が所定の値γ2未満の単語を、ペアの作成の際に除外し用いないようにしてもよい。
ペア共起回数カウント部136は、ペア抽出部135によって抽出されたペアごとの共起回数CPbを計数する。
プロファイルデータ読出部137は、検索キー文書指定受付部131によって受け付けられたユーザコードに対応付けられている個人プロファイルデータ5KD(図4参照)をプロファイルデータ記憶部101から読み出す。
特徴ペア判別部138は、単語抽出部133ないしプロファイルデータ読出部137によって得られた情報に基づいて、特徴ペアを判別する。「特徴ペア」は、検索キー文書に現われるペアのうち、指定ユーザにとって関心が特に高いと思われるペアである。ここで、判別の方法の例を、フローチャートなどを参照しながら説明する。
〔第一の方法〕
図11は、特徴ペア判別処理の流れの例を説明するフローチャートである。図12は、検索キー文書のワードネットワークの例を示す図である。
特徴ペア判別部138は、個人プロファイルデータ5KDのペア一覧データ5PUから、ペア抽出部135によって抽出されたペアごとのレコードを抽出する(図11の#801)。抽出したレコードの中から、総共起回数SPaが最も大きいレコードを抽出する(#802)。そして、抽出したレコードに示されるペアを、特徴ペアとして判別する(#803)。
例えば、このペア一覧データ5PUによって表わされるワードネットワークが図8の通りであり、単語抽出部133ないしペア共起回数カウント部136によって得られた情報によって表わされるワードネットワークが図12の通りであるとする。この場合は、両ワードネットワークを比較して分かるように、「提供価値 ワーク」ペアと「提供価値 プロトタイプ」ペアとが抽出される。これらのペアのうち、最も大きい総共起回数SPaを有するのは、「提供価値 ワーク」ペアである。よって、特徴ペア判別部138の処理によると、「提供価値 ワーク」ペアが特徴ペアであると、判別される。
なお、ペア抽出部135によって抽出されたペアには、あまり重要でないペアも含まれている可能性がある。
そこで、ステップ#801において、個人プロファイルデータ5KDのペア一覧データ5PUから、ペア抽出部135によって抽出されたペアすべてのレコードを抽出するのではなく、共起回数CPbが所定の値以上であるペアのレコードのみを抽出してもよい。または、検索キー文書の量に対する共起回数CPbの割合が所定の値以上であるペアのレコードのみを抽出してもよい。
ステップ#803において、複数のペアが抽出される場合は、ペアごとにそれを構成する2つの単語の総出現回数SWaの和を算出し、和が最も大きいペアを特徴ペアとして選出してもよい。
〔第二の方法〕
図13は、特徴ペア判別処理の流れの変形例を説明するフローチャートである。
特徴ペア判別部138は、第一の方法と同様に、個人プロファイルデータ5KDのペア一覧データ5PUから、ペア抽出部135によって抽出されたペアごとのレコードを抽出する(図13の#811)。抽出したレコードの中から、総共起回数SPaが閾値SPc以上であるレコードを抽出する(#812)。そして、抽出したレコードに示されるペアを、特徴ペアとして判別する(#813)。
閾値SPcは、指定ユーザのアクセスした文書の量によって決まる。例えば、
SPc=β×BK
によって求められる。「β」は、正の所定の値である。「BK」は、指定ユーザのアクセスした文書の数であって、指定ユーザの個人プロファイルデータ5KDに含まれる文書別ネットワークデータ5BDの個数に等しい。文書の量は、アクセスした文書すべての単語数またはページ数であってもよい。
つまり、第二の方法によると、ユーザのアクセスした文書の量に対する総共起回数SPaの割合が所定の値以上であるペアをすべて、特徴ペアとして判別する。
〔第三の方法〕
図14は、特徴ペア判別処理の流れの変形例を説明するフローチャートである。
特徴ペア判別部138は、第一の方法および第二の方法と同様に、個人プロファイルデータ5KDのペア一覧データ5PUから、ペア抽出部135によって抽出されたペアごとのレコードを抽出する(図14の#821)。抽出した各ペアを構成する各単語のレコードを、単語一覧データ5WUから抽出する(#822)。これらのレコードに基づいて、各ペアの特徴度数CRを算出する(#823)。「特徴度数」は、そのペアの総共起回数SPaとそのペアを構成する2つの単語の総出現回数SWaの和である。例えば、単語一覧データ5WUおよびペア一覧データ5PUが表わすワードネットワークが図8の通りである場合は、「提供価値 ワーク」ペアの特徴度数CRは、4+14+8=26、である。また、「提供価値 プロトタイプ」ペアの特徴度数CRは、2+14+3=20、である。
そして、特徴ペア判別部138は、特徴度数CRが最も大きいペアを、特徴ペアとして判別する(#824)。
なお、第二の方法と同様に、検索キー文書の量に対する特徴度数CRの割合が所定の値以上であるペアをすべて、特徴ペアとして判別してもよい。
図15は、検索結果画面72の例を示す図である。
図9に戻って、検索クエリ生成部139は、特徴ペア判別部138によって特徴ペアが判別されると、この特徴ペアを構成する2つの単語をAND演算子で繋いだ式を検索クエリ(検索式)として生成する。
文書検索処理部130は、この検索クエリに基づいて、ボックスまたは他の装置のストレージの中から文書の文書データを検索する。つまり、特徴ペアの2つの単語を両方含む文書の文書データを検索する。そして、図15のような、検索結果を示す検索結果画面72をタッチパネルディスプレイ10eに表示させる。なお、他の装置の検索エンジンに検索を行わせてもよい。この場合は、検索クエリを他の装置の検索エンジンに対して指定すればよい。
なお、特徴ペアが複数ある場合は、検索クエリ生成部139は、それぞれのペアについて、検索クエリを生成する。そして、文書検索処理部130は、それぞれの検索クエリに基づいて検索を行う。または、「(提供価値ANDワーク)OR(提供価値ORプロトタイプ)」のように複数の検索クエリをOR演算子で繋ぎ、纏めて検索を行ってもよい。
図16は、文書の検索に関する全体的な処理の流れの例を説明するフローチャートである。
次に、画像形成装置1における文書の検索に関する全体的な処理の流れを、図16のフローチャートを参照しながら説明する。
画像形成装置1は、イベントが発生するごとに、そのイベントに応じた処理を次のように実行する。
画像形成装置1は、文書へアクセスした場合は(#11でYes)、この文書のアクセスのコマンドを入力したユーザを判別する(#12)。この文書の文書データ50を取得し(#13)、この文書に出現する単語を抽出し(#14)、各単語の出現回数CWaを数える(#15)。さらに、単語同士のペアの共起回数CPaを数える(#16)。出現回数CWaが所定の回数α1未満である単語は、この文書に出現しないものとして取り扱ってもよい。
そして、画像形成装置1は、このユーザの個人プロファイルデータ5KD(図4参照)がなければ(#17でNo)、ステップ#15、#16の結果に基づいてこのユーザの個人プロファイルデータ5KDを生成する(#18)。このユーザの個人プロファイルデータ5KDがあれば(#17でYes)、この個人プロファイルデータ5KDを、ステップ#15、#16の結果に基づいて更新する(#19)。
または、検索者が検索用の所定のコマンドを入力すると(#11でNo、#21でYes)、画像形成装置1は、検索指令画面71(図10参照)を表示し、検索キー文書のパスおよびユーザのユーザコードを検索条件として受け付ける(#22)。
画像形成装置1は、この検索キー文書の文書データ51を取得し(#23)、この検索キー文書に出現する単語を抽出し(#24)、各単語の出現回数CWbを数える(#25)。さらに、単語同士のペアの共起回数CPbを数える(#26)。出現回数CWbが所定の回数α2未満である単語は、この検索キー文書に出現しないものとして取り扱ってもよい。ステップ#23〜#26の処理と並行してまたは前後して、このユーザの個人プロファイルデータ5KDをプロファイルデータ記憶部101から読み出す(#27)。
画像形成装置1は、各単語の出現回数CWb、共起回数CPb、および個人プロファイルデータ5KDに基づいて特徴ペアを判別する(#28)。判別の方法の例は、前に図11、図13、および図15で説明した通りである。
そして、画像形成装置1は、判別した特徴ペアに基づいて検索クエリを生成し(#29)、文書を検索しその結果を図15のように表示する(#30)。
発生したイベントが文書へのアクセスでも検索用の所定のコマンドの入力でもない場合は(#11でNo、#21でNo)、画像形成装置1は、そのイベントに応じた従来の処理を実行する(#31)。
本実施形態によると、検索者が指定した特定のユーザにとって関心のある事項を表わす複数の単語を従来よりも容易に判別することができる。
本実施形態では、ペアは、2つの単語によって構成されたが、3つ以上の単語によって構成されてもよい。
本実施形態では、ペアの共起回数として、そのペアの現われるセンテンスの数を用いた。しかし、センテンス以外の塊(クラスタ)であってもよい。例えば、そのペアの現われる段落の数をペアの共起回数として用いてもよい。または、そのペアの現われる章、項、または節の数をペアの共起回数として用いてもよい。
本実施形態では、文書から単語を抽出する技術として形態素解析を用いたが、文書の言語に応じて他の技術を用いてもよい。例えば、英語で記載される文書であれば、スペース、カンマ、ピリオド、コロン、またはセミコロンなどの符号で区切られる文字列を単語として抽出すればよい。
検索者は、検索キー文書として、指定したユーザが既にアクセスしたことのある文書を指定してもよい。この場合は、この文書の単語およびペアに関するデータが、このユーザの個人プロファイルデータ5KDに既に含まれている。そこで、検索キー文書指定受付部131ないしペア共起回数カウント部136(図9参照)の処理を行わなくてもよい。そして、各処理の結果の代わりに、この個人プロファイルデータ5KDに含まれる、この文書の文書別ネットワークデータ5BDを用いて、特徴ペアの判別を行えばよい。
例えば、文書識別子が「B00004」の文書およびユーザコード「U0001」が検索者によって指定され、かつ、「B00004」に対応する文書別ネットワークデータ5BDが「U0001」に対応する個人プロファイルデータ5KDに含まれている場合は、この文書別ネットワークデータ5BDに示される出現回数CWaおよび共起回数CPaを、出現回数CWbおよび共起回数CPbの代わりに用いて特徴ペアを判別すればよい。
本実施形態では、本発明を画像形成装置1に適用した場合を例に説明したが、パーソナルコンピュータ、スマートフォン、携帯電話端末、サーバなど他の情報処理装置にも本発明を適用することができる。
その他、イントラネット4、画像形成装置1の全体または各部の構成、処理内容、処理順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。
1 画像形成装置(関心事判別装置)
101 プロファイルデータ記憶部(実績記憶手段)
130 文書検索処理部(検索手段)
131 検索キー文書指定受付部(指定手段)
10e タッチパネルディスプレイ(指定手段)
71 検索指令画面(指定手段)
138 特徴ペア判別部(関心ペア判別手段)
5KD 個人プロファイルデータ

Claims (7)

  1. ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書に現われるクラスタの数である共起回数を当該ユーザに対応付けて記憶する、実績記憶手段と、
    第二の文書および前記ユーザのうちのいずれか1人を検索者が指定するための指定手段と、
    前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われたペアの中で、指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、
    前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われ指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、関心ペア判別手段と、
    を有することを特徴とする関心事判別装置。
  2. 前記所定の条件は、最も大きい共起回数であることである、
    請求項1に記載の関心事判別装置。
  3. 前記所定の条件は、前記第一の文書の量に対する割合が所定の割合以上であることである、
    請求項1に記載の関心事判別装置。
  4. 前記ペアは、前記第一の文書に現われる割合が所定の割合以上である単語からなるペアである、
    請求項1ないし請求項3のいずれかに記載の関心事判別装置。
  5. 前記関心ペアを構成する複数の単語をすべて含む文書を検索する検索手段、を有する、
    請求項1ないし請求項4のいずれかに記載の関心事判別装置。
  6. ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書に現われるクラスタの数である共起回数を当該ユーザに対応付けて実績記憶手段に記憶させておき、
    第二の文書および前記ユーザのうちのいずれか1人の指定を受け付け、
    前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われたペアの中で、指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する、
    ことを特徴とする関心事判別方法。
  7. ユーザごとに、複数の単語からなるペアごとの、当該ユーザが過去にアクセスした文書である第一の文書に現われるクラスタの数である共起回数を当該ユーザに対応付けて実績記憶手段に記憶させる処理と、
    第二の文書および前記ユーザのうちのいずれか1人の指定を受け付ける処理と、
    前記ペアのうちの、指定された前記第二の文書の中の同一のクラスタに現われたペアの中で、指定された前記ユーザに対応する前記共起回数が所定の条件を満たすペアを、当該第二の文書の中の当該指定されたユーザにとって関心が高いと考えられる関心ペアであると判別する処理と、
    をコンピュータに実行させる、
    ことを特徴とするコンピュータプログラム。
JP2013122309A 2013-06-11 2013-06-11 関心事判別装置、関心事判別方法、およびコンピュータプログラム Expired - Fee Related JP5900419B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013122309A JP5900419B2 (ja) 2013-06-11 2013-06-11 関心事判別装置、関心事判別方法、およびコンピュータプログラム
US14/297,659 US9607076B2 (en) 2013-06-11 2014-06-06 Device and method for determining interest, and computer-readable storage medium for computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013122309A JP5900419B2 (ja) 2013-06-11 2013-06-11 関心事判別装置、関心事判別方法、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2014240999A JP2014240999A (ja) 2014-12-25
JP5900419B2 true JP5900419B2 (ja) 2016-04-06

Family

ID=52006378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013122309A Expired - Fee Related JP5900419B2 (ja) 2013-06-11 2013-06-11 関心事判別装置、関心事判別方法、およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US9607076B2 (ja)
JP (1) JP5900419B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3151131A1 (en) * 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
JP7117632B2 (ja) * 2017-04-25 2022-08-15 パナソニックIpマネジメント株式会社 単語拡張方法、単語拡張装置及びプログラム
US20230418881A1 (en) * 2022-06-28 2023-12-28 Adobe Inc. Systems and methods for document generation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JP2002056009A (ja) 2000-05-29 2002-02-20 Fuji Xerox Co Ltd 文書分類方法および装置
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
JP4092933B2 (ja) 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
JP2008203997A (ja) * 2007-02-16 2008-09-04 Toshiba Corp 文書検索装置及びプログラム
EP1973045A1 (en) * 2007-03-20 2008-09-24 British Telecommunications Public Limited Company Organising and storing documents
JP2008242515A (ja) 2007-03-23 2008-10-09 Olympus Corp 文書作成支援装置
US8892574B2 (en) * 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
US8166032B2 (en) * 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
JP2012003603A (ja) * 2010-06-18 2012-01-05 Hitachi Systems & Services Ltd 情報検索システム
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
US8930181B2 (en) * 2012-12-06 2015-01-06 Prashant Parikh Automatic dynamic contextual data entry completion

Also Published As

Publication number Publication date
US9607076B2 (en) 2017-03-28
JP2014240999A (ja) 2014-12-25
US20140365510A1 (en) 2014-12-11

Similar Documents

Publication Publication Date Title
JP3936862B2 (ja) 推薦システム及び推薦方法
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP5627332B2 (ja) データ検索装置及びその制御方法、コンピュータプログラム
JP5900419B2 (ja) 関心事判別装置、関心事判別方法、およびコンピュータプログラム
US20060085181A1 (en) Keyword extraction apparatus and keyword extraction program
JP2010211688A (ja) 文書編集装置、データ処理方法及びプログラム
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2002230005A (ja) サポートセンターシステム
JP5383089B2 (ja) 情報処理装置及びその制御方法、並びに制御プログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
CN113495873A (zh) 信息处理装置、信息处理方法和计算机可读介质
JP6554841B2 (ja) 情報処理装置及び情報処理プログラム
JP5217513B2 (ja) 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。
CN108287826B (zh) 一种基于医疗系统的病例读取方法
JP5334639B2 (ja) 情報処理装置、データ記憶方法及びプログラム、並びに情報処理システム
JP5040544B2 (ja) コンテンツ関係登録方法
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP5412899B2 (ja) 画像データ管理装置、画像データ識別情報変更方法、コンピュータプログラム
JP2006072844A (ja) キーワード特定装置、キーワード特定方法及びキーワード特定プログラム
JP2007213481A (ja) 情報提示システム、情報提示方法及び情報提示プログラム
JP2006338114A (ja) データ管理装置およびデータ管理方法
JP2009193200A (ja) 文書管理システム、端末装置、文書管理方法およびプログラム
JP2006285581A (ja) 文書管理装置
JP2005044071A (ja) 電子辞書

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150707

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160222

R150 Certificate of patent or registration of utility model

Ref document number: 5900419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees