CN100541491C - 文档信息处理装置、文档信息处理方法和计算机可读介质 - Google Patents

文档信息处理装置、文档信息处理方法和计算机可读介质 Download PDF

Info

Publication number
CN100541491C
CN100541491C CNB2006101363652A CN200610136365A CN100541491C CN 100541491 C CN100541491 C CN 100541491C CN B2006101363652 A CNB2006101363652 A CN B2006101363652A CN 200610136365 A CN200610136365 A CN 200610136365A CN 100541491 C CN100541491 C CN 100541491C
Authority
CN
China
Prior art keywords
document
information
element information
probability
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101363652A
Other languages
English (en)
Other versions
CN101034398A (zh
Inventor
加藤典司
磯崎隆司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN101034398A publication Critical patent/CN101034398A/zh
Application granted granted Critical
Publication of CN100541491C publication Critical patent/CN100541491C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供文档信息处理装置、文档信息处理方法和计算机可读介质。文档信息处理装置包括:保持单元,其为各个用户保持对应于多个要素信息的关注概率权重;选择单元,其通过使用所述多个要素信息的关注概率权重,从文档组中选择被推断为应关注的文档;以及呈现单元,其呈现与所述选择单元使用的所述多个要素信息中的至少一个对应的信息。

Description

文档信息处理装置、文档信息处理方法和计算机可读介质
技术领域
本发明涉及用于估计各个用户对于所处理文档的关注度的文档信息处理装置。
背景技术
近年来,使用计算机的文档管理已经非常普遍,用户查看的文档的数量也增大了。在这种情况下,需要一种查找用户应该关注的文档的技术。
例如,JP-A-2005-182804(在此使用术语“JP-A”表示“未审查已公开的日本专利申请”)公开了如下的技术:从用户读取(查看)的文档中提取关键字,并且呈现包含该关键字的文档作为用户应该关注的文档的候选项。
然而,用户实际应该关注的文档不一定包含所提取的关键字。对文档进行关注的要素不应限于关键字。然而,在上述相关技术中,很难对除关键字以外的其他要素进行分析。
发明内容
因此,本发明的目的是提供一种文档信息处理装置,该文档信息处理装置可以从不仅是有限的关键字的各种要素中分析用户关注文档的要素。
(1)根据本发明的第一方面,文档信息处理装置包括:简档建立部,其形成包含作为节点的各条要素信息的贝叶斯网络,并且响应于用户操作来更新所述节点的关注概率权重;选择单元,其通过使用所述关注概率权重,从文档组中选择被推断为应关注的文档;估计单元,其基于用于所述文档的选择的所述关注概率权重,计算各条要素信息可以被用于所述文档的选择的概率,并且基于所计算的概率来选择要呈现给用户的要素信息;以及呈现单元,其呈现与由所述估计单元所选择的要素信息对应的信息。
(2)如条目(1)中所述的文档信息处理装置,该文档信息处理装置包括:附加确定单元,其基于预定的附加准则从要素信息候选项中选择要素信息,基于选择的要素信息来计算关注概率权重,并且将关注概率权重保持在保持单元中。
(3)根据本发明的第二方面,一种文档信息处理方法包括以下步骤:形成包含作为节点的各条要素信息的贝叶斯网络,并且响应于用户操作来更新所述节点的关注概率权重;通过使用所述关注概率权重,从文档组中选择被推断为应关注的文档;基于用于所述文档的选择的所述关注概率权重,计算各条要素信息可以被用于所述文档的选择的概率,并且基于所计算的概率来选择要呈现给用户的要素信息;以及呈现与所选择的要素信息对应的信息。
(4)根据本发明的第三方面,提供了一种计算机可读介质,该计算机可读介质存储有一程序,该程序使得计算机执行用于估计各个用户对于所处理文档的关注度的处理,所述处理包括以下步骤:为各个用户保持对应于多个要素信息的关注概率权重;通过使用所述多个要素信息的关注概率权重,从文档组中选择被推断为应关注的文档;并且呈现与所述多个要素信息中的至少一个对应的信息。
附图说明
基于下列附图详细描述本发明的示例性实施例,在附图中:
图1是示出根据本发明实施例的文档信息处理装置的示例结构的框图;
图2是示出根据本发明实施例的文档信息处理装置的示例的功能框图;
图3是示出根据本发明实施例的文档信息处理装置产生并使用的贝叶斯网络的示例的概念图;以及
图4是示出根据本发明实施例的文档信息处理装置为各个用户保持的各条要素信息的关注概率权重的示例的示意图。
具体实施方式
现在参照附图,其示出了本发明的示例性实施例。根据本发明实施例的文档信息处理装置由控制部11、存储部12、通信部13、操作部14、以及显示部15构成。
控制部11是CPU等的程序控制装置,并且根据存储在存储部12中的程序而工作。在本实施例中,控制部11对用户进行认证,并且为各个经认证用户保持对于文档的操作历史信息。操作历史信息例如包括读取(查看)操作、打印操作、删除操作等,并且还保持操作执行日期和时间的信息。控制部11针对可以从所操作的文档中提取的要素信息,为各个用户产生关注概率权重(称为用户简档信息)的信息(建立简档处理)。
此外,控制部11基于要素信息使用用户简档信息来从所处理的多个文档中选择被估计为应注意的文档,并且将用于确定关于所使用要素信息的至少一部分的要素信息的信息呈现给用户(要素呈现处理)。稍后详细描述控制部11的建立简档处理和要素呈现处理。
存储部12被实现为包括RAM、ROM等的存储器件,以及硬盘等的盘装置。存储部12保持控制部11执行的程序。存储部12还用作控制部11的工作存储器。通信部13是网络接口等,用于根据从控制部11输入的命令通过网络获取文档并且将该文档存储在存储部12中。
操作部14是键盘、鼠标等,并且接收用户操作并将命令操作的内容输出到控制部11。显示部15是显示器等,其根据从控制部11输入的命令来显示信息。
由于控制部11执行建立简档处理和关注度计算处理,由此本实施例的文档信息处理装置通过软件提供如图2所示的功能。即,如图2所示,本实施例的文档信息处理装置在功能上由简档建立部21、简档信息保持部22、文档操作处理部23、文档选择部24、要素估计部25、以及信息呈现部26组成。
假设控制部11预先对用户进行认证并且获取用于识别用户的信息。为进行认证,众所周知地,可以使用多种方法,例如使用用户名和密码的方法,因此这里将不再详细对认证进行讨论。
简档建立部21形成如下的贝叶斯网络:其包含从预定的要素信息候选项中选择的各条要素信息作为节点。该贝叶斯网络包括关于用户的命令操作内容的节点和表示对象文档应被用户注意的节点。
如图3所示,贝叶斯网络在概念上形成网络。在要素信息的各个节点中彼此相关联地设置关注概率权重的信息。例如,如果对象文档是专利文献,则可以采用从文档中提取的关键字信息、著录信息中包括的申请人信息、国际专利分类号和其他的分类信息、发明人姓名等作为要素信息候选项。
如图4所示,简档信息保持部22为各个用户保持一简档数据库,该简档数据库将用于识别要素信息的节点的信息(描述要素信息的字符串,例如,“申请人是A”等)与关注概率权重的信息彼此相关联地关联起来。
在从文档操作处理部23接收到用户对于文档的命令操作内容时,简档建立部21提取与要操作的文档相关的要素信息,并且改变与用于识别用户的信息相关联地存储在简档信息保持部22中的与提取的要素信息对应的节点的关注概率权重。
例如,如果文档操作处理部23输出的信息包括用户的读取(查看)开始日期和时间以及结束日期和时间,则简档建立部21根据该信息计算用户的读取(查看)时间。其从读取(查看)的文档中提取与贝叶斯网络中包括的节点对应的要素信息。例如,简档建立部21提取关键字、分类信息等。基于读取(查看)时间越长则关注概率越高的假设,简档建立部21根据预定的方法来增大与提取的要素信息对应的节点的关注概率权重。为了增大关注概率权重,例如可以使用以下各种方法:按给定比率增大关注概率权重的方法、将关注概率权重增大对应于读取(查看)时间的量的方法。例如,可以采用如电子邮件重要性估计方法等的众所周知的方法来作为响应于用户操作对贝叶斯网络进行更新的方法。
例如,文档操作处理部23响应于用户的命令操作而通过网络获取文档数据并且在显示部15上显示该文档数据。在接收到对文档的用户命令操作(读取(查看)开始命令、读取(查看)结束命令、删除命令等)的输入时,文档操作处理部23将表示命令操作的信息与表示命令操作的日期和时间的日期和时间信息一起输出到简档建立部21。可以从日历IC等(未示出)获取日期和时间信息。
文档选择部24在预定的定时(例如用户指定的定时)从网络或者预定的文档数据库中获取进行处理的文档组。例如,可以按从最新存储日期和时间开始的顺序来获取存储在预定URL(统一资源定位符)中的预定数量的文档。可以获取存储在文档数据库(未示出)中的所有文档作为处理对象。
文档选择部24从获取作为处理对象的各文档中提取与简档建立部21形成的贝叶斯网络中包括的节点对应的要素信息。其使用与所提取的要素信息相关联的关注概率权重的信息来计算各个文档是应关注文档的概率(关注概率)。文档选择部24选择概率超过预定阈值的文档作为所选中文档,并且将所选中文档存储在存储部12中。计算各个文档是应关注文档的概率的处理类似于使用通常的贝叶斯网络来计算重要度的处理,因此在此将不再详细讨论。
要素估计部25选择在文档选择部24中用于文档选择的要素信息中的满足预定条件的至少一部分,并且将用于确定所选择要素信息的信息输出到信息呈现部26。
使用贝叶斯定理,关于当确定所选择文档是应关注文档时基于各条要素信息的关注概率权重而计算的关注概率值,根据关注概率值反推出当确定所选择文档为应关注文档时使用的要素信息的概率。即,贝叶斯定理将当A成立时B成立的概率与当B成立时A成立的概率彼此相关联,由此颠倒因果关系,可以根据文档选择概率来计算各条要素信息可以用于文档选择的概率。
对于各个所选择文档,要素估计部25计算各条要素信息可以用于选择该文档的概率。要素估计部25按从概率最高的要素信息开始的顺序来选择与预定呈现数量一样多的多条要素信息,并且将用于确定所选择要素信息的信息(描述要素信息的字符串等)输出到信息呈现部26。
信息呈现部26在显示部15上列出从要素估计部25输入的用于确定要素信息的信息。此时,也可以在显示部15上列出文档选择部24选择的文档。
如果预定比率或者更多的未成为要素信息的要素信息候选项是文档选择部24选择的文档组所共有的(对应于附加准则),则要素估计部25可以将要素信息候选项发送到简档建立部21作为附加对象。
在此情况下,简档建立部21将与作为附加对象发送的要素信息候选项对应的节点增加到贝叶斯网络,并且初始化关注概率权重的信息(例如,初始化为1)。
根据本实施例,如果用户无意地长时间读取(查看)申请人是A的专利文献,则与贝叶斯网络中的“申请人是A”的节点相关的关注概率权重升高,并且选择“申请人是A”的文档作为应关注文档。从该选择结果反推,选择“申请人是A”的节点作为用于文档选择的概率高的节点,并且将表示该节点的“申请人是A”的要素信息呈现给用户。
因此,使用户能够知道没有想到的文档的注意要素。在本实施例中,使用贝叶斯网络,作为可以从文档中提取的信息,不仅可以包括关键字而且可以包括含有关键字的多种要素信息项作为贝叶斯网络中的节点。因此,可以根据包括关键字的多种要素来对用户关注文档时的要素进行分析。

Claims (3)

1、一种文档信息处理装置,该文档信息处理装置包括:
简档建立部,其形成包含作为节点的各条要素信息的贝叶斯网络,并且响应于用户操作来更新所述节点的关注概率权重;
选择单元,其通过使用所述关注概率权重,从文档组中选择被推断为应关注的文档;
估计单元,其基于用于所述文档的选择的所述关注概率权重,计算各条要素信息可以被用于所述文档的选择的概率,并且基于所计算的概率来选择要呈现给用户的要素信息;以及
呈现单元,其呈现与由所述估计单元所选择的要素信息对应的信息。
2、如权利要求1所述的文档信息处理装置,该文档信息处理装置包括:
附加确定单元,该附加确定单元基于预定的附加准则从要素信息候选项中选择要素信息,基于选择的要素信息来计算关注概率权重,并且将该关注概率权重保持在所述保持单元中。
3、一种文档信息处理方法,该文档信息处理方法包括以下步骤:
形成包含作为节点的各条要素信息的贝叶斯网络,并且响应于用户操作来更新所述节点的关注概率权重;
通过使用所述关注概率权重,从文档组中选择被推断为应关注的文档;
基于用于所述文档的选择的所述关注概率权重,计算各条要素信息可以被用于所述文档的选择的概率,并且基于所计算的概率来选择要呈现给用户的要素信息;以及
呈现与所选择的要素信息对应的信息。
CNB2006101363652A 2006-03-06 2006-10-17 文档信息处理装置、文档信息处理方法和计算机可读介质 Expired - Fee Related CN100541491C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006060079 2006-03-06
JP2006060079A JP2007241452A (ja) 2006-03-06 2006-03-06 ドキュメント情報処理装置

Publications (2)

Publication Number Publication Date
CN101034398A CN101034398A (zh) 2007-09-12
CN100541491C true CN100541491C (zh) 2009-09-16

Family

ID=38472590

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101363652A Expired - Fee Related CN100541491C (zh) 2006-03-06 2006-10-17 文档信息处理装置、文档信息处理方法和计算机可读介质

Country Status (3)

Country Link
US (1) US20070208731A1 (zh)
JP (1) JP2007241452A (zh)
CN (1) CN100541491C (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826576B2 (en) * 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
JP5328212B2 (ja) * 2008-04-10 2013-10-30 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報評価装置およびレコメンド情報評価方法
US10021051B2 (en) 2016-01-01 2018-07-10 Google Llc Methods and apparatus for determining non-textual reply content for inclusion in a reply to an electronic communication
CN110114776B (zh) * 2016-11-14 2023-11-17 柯达阿拉里斯股份有限公司 使用全卷积神经网络的字符识别的系统和方法
US10725648B2 (en) * 2017-09-07 2020-07-28 Paypal, Inc. Contextual pressure-sensing input device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100350787B1 (ko) * 1999-09-22 2002-08-28 엘지전자 주식회사 멀티미디어 객체의 사용자 프로파일 생성방법과 사용자 프로파일을 이용한 멀티미디어 검색 및 브라우징 방법
US20060129533A1 (en) * 2004-12-15 2006-06-15 Xerox Corporation Personalized web search method
US8606781B2 (en) * 2005-04-29 2013-12-10 Palo Alto Research Center Incorporated Systems and methods for personalized search
US7664746B2 (en) * 2005-11-15 2010-02-16 Microsoft Corporation Personalized search and headlines
US20070192293A1 (en) * 2006-02-13 2007-08-16 Bing Swen Method for presenting search results

Also Published As

Publication number Publication date
CN101034398A (zh) 2007-09-12
JP2007241452A (ja) 2007-09-20
US20070208731A1 (en) 2007-09-06

Similar Documents

Publication Publication Date Title
WO2018040944A1 (zh) 恶意地址/恶意订单的识别系统、方法及装置
JP5389186B2 (ja) エンティティをマッチングするシステム及び方法
JP5819629B2 (ja) パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定
CN106650350B (zh) 一种身份认证方法及系统
CN107785021B (zh) 语音输入方法、装置、计算机设备和介质
CN111782943A (zh) 基于历史数据记录的信息推荐方法、装置、设备及介质
CN100541491C (zh) 文档信息处理装置、文档信息处理方法和计算机可读介质
CN111352907A (zh) 流水文件解析方法、装置、计算机设备和存储介质
JP2008243054A (ja) 照合装置、照合方法および照合プログラム
CN105490915A (zh) 用于填写电子消息的地址字段的方法、设备和软件产品
CN101478401A (zh) 一种基于击键特征识别的认证方法及系统
CN105704005A (zh) 恶意用户举报方法及装置、举报信息处理方法及装置
CN106533921B (zh) 基于电子邮件信息的快速建档方法及系统
CN108287823B (zh) 消息数据处理方法、装置、计算机设备和存储介质
WO2007139039A1 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
CN108764770A (zh) 自动查找物流信息的方法、装置及终端设备
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
AU2021255654A1 (en) Systems and methods for determining entity attribute representations
JP2010170439A (ja) 生体認証システム
CN111651749A (zh) 基于密码找回账号的方法、装置、计算机设备及存储介质
CN111415683A (zh) 语音识别异常告警方法、装置、计算机设备和存储介质
CN111475785A (zh) 信息采集方法、装置、计算机设备和存储介质
CN110781467A (zh) 异常业务数据分析方法、装置、设备及存储介质
CN111476446A (zh) 业务状态的监控处理方法、装置、设备及存储介质
JP2013242782A (ja) 文字列変換方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090916

Termination date: 20171017