JP2007241452A - ドキュメント情報処理装置 - Google Patents

ドキュメント情報処理装置 Download PDF

Info

Publication number
JP2007241452A
JP2007241452A JP2006060079A JP2006060079A JP2007241452A JP 2007241452 A JP2007241452 A JP 2007241452A JP 2006060079 A JP2006060079 A JP 2006060079A JP 2006060079 A JP2006060079 A JP 2006060079A JP 2007241452 A JP2007241452 A JP 2007241452A
Authority
JP
Japan
Prior art keywords
document
information
factor information
factor
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006060079A
Other languages
English (en)
Inventor
Sukeji Kato
典司 加藤
Takashi Isozaki
隆司 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006060079A priority Critical patent/JP2007241452A/ja
Priority to US11/546,980 priority patent/US20070208731A1/en
Priority to CNB2006101363652A priority patent/CN100541491C/zh
Publication of JP2007241452A publication Critical patent/JP2007241452A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】利用者がドキュメントに注目する際の要因を、キーワードを含む種々の要因から分析できるドキュメント情報処理装置を提供する。
【解決手段】ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する。そして要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜し、当該選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示するドキュメント情報処理装置である。
【選択図】図1

Description

本発明は、処理対象となったドキュメントについて利用者ごとの注目度を推定するドキュメント情報処理装置に関する。
近年ではコンピュータを用いたドキュメント管理が普及し、利用者が目にするドキュメントの数も増大している。こうしたなか、利用者にとって注目するべきドキュメントを検索する技術が求められている。
例えば利用者が閲覧したドキュメントからキーワードを抽出し、当該キーワードを含むドキュメントを注目するべきドキュメントの候補として提示する技術が、特許文献1に開示されている。
特開2005ー182804号公報
しかしながら、実際に注目するべきドキュメントに、抽出されたキーワードが必ずしも含まれるとは限らない。また、ドキュメントに注目する要因はキーワードだけに限らない場合があるが、上記従来の技術では、キーワード外の要因について分析することが困難であった。
本発明は上記実情に鑑みて為されたもので、利用者がドキュメントに注目する際の要因を、キーワードを含む種々の要因から分析できるドキュメント情報処理装置を提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明は、ドキュメント情報処理装置であって、ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段と、前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜する手段と、前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示する手段と、を含むことを特徴としている。
また前記要因情報候補のうちから、予め定めた追加基準に基づいて、追加対象となる要因情報を選択し、当該選択された要因情報に基づく注目確率重みを演算させ、前記保持手段に保持させる追加判断手段をさらに含んでもよい。
また、本発明の一態様に係るドキュメント情報処理方法は、ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段を備えたコンピュータを用い、前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜し、前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示することを特徴としている。
さらに本発明の別の態様に係るプログラムは、ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段を備えたコンピュータに、前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜する手順と、前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示する手順と、を実行させることを特徴としている。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係るドキュメント情報処理装置は、図1に示すように、制御部11、記憶部12、通信部13、操作部14、及び表示部15を含んで構成されている。
制御部11は、CPUなどのプログラム制御デバイスであり、記憶部12に格納されているプログラムに従って動作する。本実施の形態では、制御部11は、利用者を認証し、認証した利用者ごとに、ドキュメントに関する操作の履歴を保持する。ここで操作履歴とは、例えば閲覧操作、印刷操作、削除操作などであり、それぞれの実行日時などの情報を併せて保持している。また、この制御部11は、操作の対象となったドキュメントから抽出可能な要因情報に対して、利用者ごとの注目確率重み(利用者のプロファイル情報と呼ぶ)の情報を生成する(プロファイリング処理)。
さらに制御部11は、要因情報に基づく利用者のプロファイル情報を利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜するとともに、この選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示する(要因提示処理)。これら制御部11のプロファイリング処理や、要因提示処理については、後に詳しく述べる。
記憶部12は、RAM,ROMなどの記憶素子や、ハードディスクなどのディスクデバイスを含んで構成される。この記憶部12は、制御部11によって実行されるプログラムを保持している。また、この記憶部12は、制御部11のワークメモリとしても動作する。通信部13は、ネットワークインタフェースなどであり、制御部11から入力される指示に従って、ネットワークを介してドキュメントを取得し、記憶部12に格納する。
操作部14は、キーボードやマウスなどであり、利用者の操作を受けて、当該指示操作の内容を制御部11に出力する。表示部15は、ディスプレイなどであり、制御部11から入力される指示に従って情報を表示する。
本実施の形態のドキュメント情報処理装置は、制御部11がプロファイリング処理や、注目度演算処理を実行することで、ソフトウエア的に、図2に示すような各機能が実現される。すなわち、本実施の形態のドキュメント情報処理装置は、機能的には、図2に示すように、プロファイリング部21と、プロファイル情報保持部22と、ドキュメント操作処理部23と、ドキュメント選抜部24と、要因推定部25と、情報提示部26とを含んで構成される。
なお制御部11は、予め利用者を認証して、利用者を特定する情報を得ておくものとする。認証は広く知られているように、利用者名とパスワードとを用いる方法など様々な方法があるので、ここでの詳細な説明を省略する。
プロファイリング部21は、予め定められた要因情報候補から選択される一部複数の要因情報の各々をノードとして含むベイジアンネットワークを形成する。また、このベイジアンネットワークには、利用者の指示操作の内容に関わるノードと、対象とするドキュメントが利用者にとって注目するべきものであるとするノードとを含む。
このベイジアンネットワークは、概念的には図3に示すようなネットワークとなる。また、要因情報のノードの各々には注目確率重みの情報が関連づけて設定される。ここで要因情報は、例えば対象となるドキュメントが特許文献であれば、当該ドキュメントから抽出されるキーワード情報、書誌的情報に含まれる出願人情報、国際特許分類の値その他の分類情報、発明者名などを要因情報候補とすることができる。
プロファイル情報保持部22は、図4に示すように、要因情報のノードを識別する情報(要因情報を説明する文字列、例えば「出願人がAである」など)と、注目確率重みの情報とを関連づけたプロファイルデータベースを、利用者ごとに保持する。
プロファイリング部21は、ドキュメント操作処理部23から、利用者のドキュメントに対する指示操作の内容を受けて、操作の対象となったドキュメントに関わる要因情報を抽出し、プロファイル情報保持部22に、当該利用者を特定する情報に関連づけて格納されている、上記抽出した要因情報に対応するノードの注目確率重みを変更する。
例えばドキュメント操作処理部23が出力する情報に、利用者が閲覧を開始した日時と閲覧を終了した日時とが含まれていれば、プロファイリング部21は、利用者の閲覧時間をこれらの情報から演算する。また、当該閲覧の対象となっているドキュメントから、ベイジアンネットワークに含められているノードに対応する要因情報を抽出する。例えばキーワードや分類情報などを抽出する。そして、閲覧時間が長いほど注目確率は高いとの仮説に立って、上記抽出された要因情報のノードの注目確率重みを所定の方法で増大させる。ここで増大させる方法は、例えば一定割合で増大させる方法や、閲覧時間に応じた量だけ増大させる方法など種々の方法がある。このように利用者の操作に応じてベイジアンネットワークを更新する方法については、例えば電子メールの重要度を推定する方法などとして広く知られた方法を採用できる。
ドキュメント操作処理部23は、利用者から入力される指示操作に応じて、例えばネットワークを介してドキュメントのデータを取得して表示部15に表示出力する。また、このドキュメント操作処理部23は、当該ドキュメントに対する利用者の指示操作(閲覧開始指示、閲覧終了指示、削除指示など)の入力を受けると、当該指示操作があったことを表す情報を、当該指示操作があった時点を表す日時情報とともにプロファイリング部21に出力する。なお、日時情報は、図示しないカレンダーICなどから取得することができる。
ドキュメント選抜部24は、利用者から指定されたタイミングなど、予め定めたタイミングにて、ネットワークから、または所定のドキュメントデータベースから、処理対象となるドキュメント群を取得する。例えば、所定のURL(Uniform Resource Locator)に蓄積されるドキュメントのうち、蓄積日時の新しいものから順に所定件数だけを、処理対象として取得してもよい。また、図示しないドキュメントデータベースに蓄積されているドキュメントのすべてを処理対象として取得してもよい。
ドキュメント選抜部24は、処理対象として取得したドキュメントのそれぞれから、プロファイリング部21が形成するベイジアンネットワークに含まれるノードに対応する要因情報を抽出する。そして当該抽出した要因情報に関連づけられている注目確率重みの情報を用いて、各ドキュメントが注目するべきものである確率(注目確率)を演算する。そして、この確率が予め定めた閾値を超えるものを、選抜ドキュメントとして選抜し、当該選抜ドキュメントを記憶部12に格納する。ここでドキュメントが注目するべきものである確率の演算は、通常のベイジアンネットワークを用いた重要度の演算と同様のものであるので、ここでの詳細な説明を省略する。
要因推定部25は、ドキュメント選抜部24におけるドキュメントの選抜で用いられた要因情報のうち、所定条件を満足する少なくとも一部を選択し、当該選択した要因情報を特定する情報を、情報提示部26に出力する。
ここではベイズの定理を用いて、選抜されたドキュメントを注目するべきドキュメントと判断したときの、各要因情報の注目確率重みに基づいて演算された注目確率の値について、この注目確率の値から逆に、その選抜されたドキュメントを注目するべきドキュメントとして判断するときに用いる要因情報の確率を演算する。すなわちベイズの定理は、AであるときにBである確率と、BであるときにAである確率とを関連づけているので、因果関係を逆転して、ドキュメントを選抜する確率から、各要因情報がドキュメントの選抜に用いられる確率を算出できるのである。
そして要因推定部25は、選抜された各ドキュメントについて、各要因情報が、当該ドキュメントの選抜に用いられる確率を算出する。そして、当該確率が高いものから順に予め定めた提示数だけの要因情報を選択し、当該選択した要因情報を特定する情報(当該要因情報を説明する文字列など)を情報提示部26に出力する。
情報提示部26は、要因推定部25から入力される、要因情報を特定する情報を、表示部15に一覧表示する。なお、このとき、ドキュメント選抜部24が選抜したドキュメントの一覧などを併せて表示部15に表示してもよい。
また、要因推定部25は、要因情報候補であって、要因情報となっていないものについて、ドキュメント選抜部24が選抜したドキュメント群に、予め定めた割合以上で共通している(追加基準に相当する)ものがあれば、当該要因情報候補を追加対象としてプロファイリング部21に通知してもよい。
この場合、プロファイリング部21は、追加対象として通知された要因情報候補に対応するノードを、ベイジアンネットワークに追加し、その注目確率重みの情報を初期化する(例えば「1」とする)。
本実施の形態によると、利用者が意識せずに、出願人がAであるような特許文献を長時間閲覧していたりした場合に、ベイジアンネットワークにおいて「出願人がAである」とのノードに関係する注目確率重みが上昇させられ、「出願人がAである」ドキュメントが注目するべきドキュメントとして選抜される。そして、この選抜結果から逆に「出願人がAである」とのノードが、ドキュメントの選抜に用いられる確率が高いノードとして選択され、当該ノードを表す「出願人がAである」との要因情報が、利用者に提示される。
これにより利用者は、意識していなかったドキュメントの注目要因を知ることができるようになる。また、本実施の形態では、ベイジアンネットワークを利用し、ドキュメントから抽出可能な情報としてキーワードのみならず、キーワードを含む種々の要因情報をベイジアンネットワークのノードとして含めることができる。このため、利用者がドキュメントに注目する際の要因を、キーワードを含む種々の要因から分析できる。
本発明の実施の形態に係るドキュメント情報処理装置の例を表す構成ブロック図である。 本発明の実施の形態に係るドキュメント情報処理装置の一例を表す機能ブロック図である。 本発明の実施の形態に係るドキュメント情報処理装置が生成し、利用するベイジアンネットワークの例を表す概要図である。 本発明の実施の形態に係るドキュメント情報処理装置が利用者ごとに保持する要因情報ごとの注目確率重みの例を表す説明図である。
符号の説明
11 制御部、12 記憶部、13 通信部、14 操作部、15 表示部、21 プロファイリング部、22 プロファイル情報保持部、23 ドキュメント操作処理部、24 ドキュメント選抜部、25 要因推定部、26 情報提示部。

Claims (4)

  1. ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段と、
    前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜する手段と、
    前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示する手段と、
    を含むことを特徴とするドキュメント情報処理装置。
  2. 請求項1に記載のドキュメント情報処理装置であって、
    前記要因情報候補のうちから、予め定めた追加基準に基づいて、追加対象となる要因情報を選択し、当該選択された要因情報に基づく注目確率重みを演算させ、前記保持手段に保持させる追加判断手段をさらに含むことを特徴とするドキュメント情報処理装置。
  3. ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段を備えたコンピュータを用い、
    前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜し、
    前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示することを特徴とするドキュメント情報処理方法。
  4. ドキュメントから抽出可能な所与の要因情報候補のうち、少なくとも一部複数を要因情報として、利用者ごとに、各要因情報に基づく注目確率重みを保持する保持手段を備えたコンピュータに、
    前記要因情報に基づく注目確率重みを利用して、処理対象となったドキュメント群から、注目されると推定されるドキュメントを選抜する手順と、
    前記選抜の推論において、用いられた要因情報の少なくとも一部について、当該要因情報を特定する情報を利用者に提示する手順と、
    を実行させることを特徴とするプログラム。
JP2006060079A 2006-03-06 2006-03-06 ドキュメント情報処理装置 Withdrawn JP2007241452A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006060079A JP2007241452A (ja) 2006-03-06 2006-03-06 ドキュメント情報処理装置
US11/546,980 US20070208731A1 (en) 2006-03-06 2006-10-13 Document information processing apparatus, method of document information processing, computer readable medium and computer data signal
CNB2006101363652A CN100541491C (zh) 2006-03-06 2006-10-17 文档信息处理装置、文档信息处理方法和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060079A JP2007241452A (ja) 2006-03-06 2006-03-06 ドキュメント情報処理装置

Publications (1)

Publication Number Publication Date
JP2007241452A true JP2007241452A (ja) 2007-09-20

Family

ID=38472590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060079A Withdrawn JP2007241452A (ja) 2006-03-06 2006-03-06 ドキュメント情報処理装置

Country Status (3)

Country Link
US (1) US20070208731A1 (ja)
JP (1) JP2007241452A (ja)
CN (1) CN100541491C (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826576B2 (en) * 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
JP5328212B2 (ja) * 2008-04-10 2013-10-30 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報評価装置およびレコメンド情報評価方法
US10021051B2 (en) * 2016-01-01 2018-07-10 Google Llc Methods and apparatus for determining non-textual reply content for inclusion in a reply to an electronic communication
CN110114776B (zh) * 2016-11-14 2023-11-17 柯达阿拉里斯股份有限公司 使用全卷积神经网络的字符识别的系统和方法
US10725648B2 (en) * 2017-09-07 2020-07-28 Paypal, Inc. Contextual pressure-sensing input device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100350787B1 (ko) * 1999-09-22 2002-08-28 엘지전자 주식회사 멀티미디어 객체의 사용자 프로파일 생성방법과 사용자 프로파일을 이용한 멀티미디어 검색 및 브라우징 방법
US20060129533A1 (en) * 2004-12-15 2006-06-15 Xerox Corporation Personalized web search method
US8606781B2 (en) * 2005-04-29 2013-12-10 Palo Alto Research Center Incorporated Systems and methods for personalized search
US7664746B2 (en) * 2005-11-15 2010-02-16 Microsoft Corporation Personalized search and headlines
US20070192293A1 (en) * 2006-02-13 2007-08-16 Bing Swen Method for presenting search results

Also Published As

Publication number Publication date
CN100541491C (zh) 2009-09-16
CN101034398A (zh) 2007-09-12
US20070208731A1 (en) 2007-09-06

Similar Documents

Publication Publication Date Title
US11341191B2 (en) Method and system for document retrieval with selective document comparison
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US9274674B2 (en) Live companion user interface
TW201022973A (en) Previewing search results for suggested refinement terms and vertical searches
EP3221803A1 (en) Relevant file identification using automated queries to disparate data storage locations
JP2011525001A (ja) ビューアクライアントにおける文書の高忠実度レンダリング
US20120331128A1 (en) Method and a system for analysing impact of changes to content of a website
CN112136127A (zh) 用于搜索操作输出元素的动作指示符
JP5423596B2 (ja) 情報処理装置および情報処理方法
KR100856916B1 (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2007241451A (ja) 情報収集支援装置
JP2007241452A (ja) ドキュメント情報処理装置
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP2007272465A (ja) スケジュール管理装置、スケジュール管理装置における文書提示方法、およびスケジュール管理プログラム
JP2006024158A (ja) 分類案内装置
JP2006201926A (ja) 類似文書検索システム、類似文書検索方法、およびプログラム
JP2009163474A (ja) 時系列データ検索プログラム,時系列データ検索装置および時系列データ検索方法
JP2018506783A (ja) 要素識別子の生成
JP2006185167A (ja) ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム
KR100676045B1 (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
JP2019067056A (ja) メッセージ出力制御方法、メッセージ出力制御プログラム、およびメッセージ出力制御装置
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2009075738A (ja) 検索結果絞り込みシステム、検索結果絞り込み方法、及び検索結果絞り込みプログラム
JP4451305B2 (ja) 経験スコア管理システムおよび方法、プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090210

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090925