CN102567455A - 利用语句的加权流行数据来管理文档的方法与系统 - Google Patents
利用语句的加权流行数据来管理文档的方法与系统 Download PDFInfo
- Publication number
- CN102567455A CN102567455A CN201110360030XA CN201110360030A CN102567455A CN 102567455 A CN102567455 A CN 102567455A CN 201110360030X A CN201110360030X A CN 201110360030XA CN 201110360030 A CN201110360030 A CN 201110360030A CN 102567455 A CN102567455 A CN 102567455A
- Authority
- CN
- China
- Prior art keywords
- statement
- intensity
- weights
- data
- themes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
公开了利用语句的加权流行数据来管理文档的方法与系统。在一种实施方式中,针对相应语句中的相应关系确定相应的强度。与自所述相应语句添加到文档时起的相应时间量成比例地减小用于所述相应语句的权值。针对文档子集中修改了的语句子集增加权值。将针对相应时间段用于相应语句的加权流行数据计算为,针对具有相应强度的相应语句在时间段内用于那些语句的权值之和。
Description
技术领域
本发明的实施方式总体上涉及计算机系统,更特别地涉及执行对文档中语句的语义处理的计算机系统。
背景技术
计算机系统一般包括计算机程序和硬件的组合,其中硬件例如半导体、晶体管、芯片、电路板、存储设备和处理器。计算机程序存储在存储设备中并且由处理器执行。从根本上讲,计算机系统用于存储、操纵和分析数据。
两种不同类型的数据是结构化数据和非结构化数据。结构化数据具有描述数据格式并且有助于赋予数据意义的数据模型、数据模式(schema)或者数据结构。结构化数据的一个例子是具有记录和字段的数据库,例如具有名称字段、地址字段和电话号码字段的记录。字段描述记录的组织并且有助于赋予存储在记录中的数据意义。非结构化数据不具有数据模型或者是具有不容易使用的数据模型。非结构化数据的例子包括文档,例如字处理文档、电子邮件、文章或者文件,其包含文本、散文或者可以转换成文本的音频演讲。存在专门的工具来找出非结构化数据中的模式、解释非结构化数据、对非结构化数据分配意义或者给出非结构化数据的结构。一个这种工具是可以从国际商用机器公司获得的非结构化信息管理体系结构(UIMA)架构,这个工具提供了用于处理非结构化信息以便从非结构化信息提取意义并创建结构化数据的公共架构。
发明内容
提供了方法、计算机可读存储介质和计算机系统。在一种实施方式中,针对相应语句中的相应关系确定相应的强度。与自相应语句添加到文档时起的相应时间量成比例地减小用于相应语句的权值(weight)。针对文档子集中修改过的语句子集增加权值。针对相应语句在相应的时间段上计算加权流行(prevalence)数据,作为针对具有相应强度的所述相应语句在时间段内用于那些语句的权值之和。
附图说明
图1绘出了用于实现本发明实施方式的示例系统的高级框图。
图2绘出了根据本发明实施方式的显示流行图的用户I/O设备的框图。
图3绘出了根据本发明实施方式的用于主题数据的示例数据结构的框图。
图4绘出了根据本发明实施方式的用于权值数据的示例数据结构的框图。
图5绘出了根据本发明实施方式的用于流行数据的示例数据结构的框图。
图6绘出了根据本发明实施方式的用于创建主题数据的示例处理的流程图。
图7绘出了根据本发明实施方式的用于更新权值数据和主题数据的示例处理的流程图。
图8绘出了根据本发明实施方式的用于创建流行数据的示例处理的流程图。
然而,应当指出,附图仅仅例示了本发明的示例实施方式,因此不应当认为是对本发明其它实施方式的范围的限制。
具体实施方式
参考附图,其中贯穿若干视图类似的编号都指示类似的部件,图1绘出了根据本发明实施方式的经网络130连接到客户端计算机系统132的服务器计算机系统100的高级框图表示。在此使用术语“服务器”仅仅是为了方便,而且在各种实施方式中,在一种环境下作为客户端计算机运作的计算机系统在另一种环境下可以作为服务器计算机运作,反之亦然。本发明实施方式的机制和装置同样适用于任何合适的计算系统。
计算机系统100的主要部件包括一个或多个处理器101、主存储器102、终端接口111、存储接口112、I/O(输入/输出)设备接口113和网络适配器114,所有这些部件都经存储器总线103、I/O总线104和I/O总线接口单元105直接或者间接地通信耦合用于部件间的通信。计算机系统100包含一个或多个通用可编程中央处理单元(CPU)101A、101B、101C和101D,在这里一般地称为处理器101。在一种实施方式中,计算机系统100包含一般为相对大系统的多个处理器;然而,在另一种实施方式中,计算机系统100可以另选地是单CPU系统。每个处理器101执行存储在主存储器102中的指令并且可以包括一级或者多级板上高速缓冲存储器。
在一种实施方式中,主存储器102可以包括用于存储或者编码数据和程序的随机存取半导体存储器、存储设备或者存储介质。在另一种实施方式中,主存储器102代表计算机系统100的整个虚拟存储器,而且还可以包括耦合到计算机系统100或者经网络130连接的其它计算机系统的虚拟存储器。主存储器102从概念上讲是单个整块实体,但是在其它实施方式中主存储器102是更复杂的布置,例如高速缓冲存储器和其它存储器设备的分级结构。例如,存储器可以存在于多级高速缓冲存储器中,而且这些高速缓冲存储器可以进一步通过功能来划分,使得一个高速缓冲存储器保持指令,而另一个高速缓冲存储器保持由一个或多个处理器使用的非指令数据。存储器可以进一步是分布式的并且与不同的CPU或者CPU集合相关联,如在各种所谓的非一致性存储器访问(NUMA)计算机体系结构中的任何一种中已知的。
主存储器102存储或者编码文档150、主题数据152、权值数据154、流行数据156和控制器158。尽管文档150、主题数据152、权值数据154、流行数据156和控制器158被例示为包含在计算机系统100的存储器102中,但是在其它实施方式中,它们中的一些或者全部可以在不同的计算机系统上而且可以例如通过网络130远程访问。计算机系统100可以使用虚拟寻址机制,这种机制允许计算机系统100的程序表现为就象它们仅访问大的单个存储实体,而不是访问多个小的存储实体。因此,尽管文档150、主题数据152、权值数据154、流行数据156和控制器158被例示为包含在主存储器102中,但是这些元素不必相同全都完全地包含在相同的存储设备中。另外,尽管文档150、主题数据152、权值数据154、流行数据156和控制器158被例示为分开的实体,但是在其它实施方式中,它们中的一些、它们中一些的部分或者它们全部都可以打包到一起。
在一种实施方式中,控制器158包括在处理器101上执行的指令或语句,或者由在处理器101上执行的指令或语句解释的指令或语句,以便执行如以下参考图2、3、4、5、6、7和8进一步描述的功能。在另一种实施方式中,控制器158是代替基于处理器的系统或者作为其的附加,经半导体器件、芯片、逻辑门、电路、电路板和/或其它物理硬件设备在硬件中实现的。在一种实施方式中,除指令或语句之外,控制器158还包括数据。在各种实施方式中,控制器158是用户应用程序、第三方应用程序、操作系统或者其任意部分、多个或者组合。
在一种实施方式中,控制器158包括文本分析引擎。文本分析引擎解析文档150,来识别特定的概念、演讲的语法部分、正确的名称等,并识别文档150中趋于指示那些概念之间的上下文关系的相关概念。可以使用适合于特定知识领域(例如,医学、金融等等)的不同文本分析工具。文本分析引擎可以使用自然语言搜索、模糊搜索和数据挖掘技术,来执行对文档150的语义分析。
文档150包括文本字符的一个或多个文档,其中文本字符组成词、短语、句子、句子片段、标点符号或者其任意部分、多个或者组合。文档150还可以包括音频、视频或者图形。在各种实施方式中,文档150可以包括结构化信息和非结构化信息的组合。例如,非结构化信息可以打包到具有某种结构的对象(例如,文件和文档)中,而且,除了非结构化文本之外,文档还可以包括格式化或者标记标签。
存储器总线103提供了用于在处理器101、主存储器102和I/O总线接口单元105之间传输数据的数据通信路径。I/O总线接口单元105进一步耦合到系统I/O总线104,用于把数据传输到不同的I/O单元或者从其传输数据。I/O总线接口单元105通过系统I/O总线104与多个I/O接口单元111、112、113和114通信,这些I/O接口单元也称为I/O处理器(IOP)或者I/O适配器(IOA)。I/O接口单元支持与各种储存器和I/O设备的通信。例如,终端接口单元111支持一个或多个用户I/O设备121的附连,其中用户I/O设备121可以包括用户输出设备(例如,视频显示设备、扬声器和/或电视机)和用户输入设备(例如,键盘、鼠标、键区、触摸板、轨迹球、按钮、光笔或者其它指向设备)。用户可以利用用户接口操纵用户输入设备,以便将输入数据和命令提供给用户I/O设备121和计算机系统100,而且还可以经用户输出设备接收输出数据。例如,用户接口可以经用户I/O设备121给出,例如显示在显示设备上、经扬声器播放或者经打印机打印。
存储接口单元112支持一个或多个盘驱动器或者辅助存储设备125的附连。在一种实施方式中,辅助存储设备125是转动式磁盘驱动器存储设备,但在其它实施方式中,它们可以是配置成对主计算机来说看起来象单个大存储设备的盘驱动器阵列,或者是任何其它类型的存储设备。根据需要,主存储器102的内容,或者其任意部分,可以存储到辅助存储设备125以及从其检索。在一种实施方式中,辅助存储设备125存储更多的数据而且比存储器102具有更慢的访问时间,这意味着从/向存储器102读/写数据所需的时间比从/向辅助存储设备125读/写数据所需的时间少。
I/O设备接口113为各种其它输入/输出设备或者其它类型的设备(例如,打印机或者传真机)的任何一种提供接口。网络适配器114提供从计算机系统100到其它数字设备和计算机系统132的一条或多条通信路径;这种路径可以包括例如一个或多个网络130。尽管存储器总线103在图1中示出为相对简单的单个总线结构,用以在处理器101、主存储器102和I/O总线接口105之间提供直接的通信路径,但实际上存储器总线103可以包括多条不同的总线或者通信路径,它们可以布置在多种形式的任何一种中,例如分级结构中的点到点链接、星形或者网状配置、多个分级总线、并行和冗余路径或者任何其它适当类型的配置。此外,尽管I/O总线接口105和I/O总线104示出为单个相应的单元,但计算机100实际上可以包含多个I/O总线接口单元105和/或多个I/O总线104。尽管示出了多个I/O接口单元,这些接口单元将系统I/O总线104与到达各种I/O设备的各种通信路径隔开,但是在其它实施方式中,所述I/O设备中的一些或者全部直接连接到一条或多条系统I/O总线。
在各种实施方式中,计算机系统100是多用户大型机计算机系统、单用户系统或者具有很少或者没有直接用户接口但是从其它计算机系统(客户端)接收请求的服务器计算机或类似设备。在其它实施方式中,计算机系统100实现为台式计算机、便携式计算机、膝上型或者笔记本计算机、平板式计算机、袖珍计算机、电话机、智能电话、寻呼机、汽车、电话会议系统、器件或者任何其它合适类型的电子设备。
网络130可以是任何合适的网络或者网络的组合,而且可以支持向/自计算机系统100和计算机系统132传送数据和/或代码的任何适当协议。在各种实施方式中,网络130可以代表直接或者间接地连接到计算机系统100的存储设备或者存储设备的组合。在另一种实施方式中,网络130可以支持无线通信。在另一种实施方式中,网络130可以支持硬连线的通信,例如电话线或者电缆。在另一种实施方式中,网络130可以是互联网而且可以支持IP(互联网协议)。在另一种实施方式中,网络130被实现为局域网(LAN)或者广域网(WAN)。在另一种实施方式中,网络130被实现为热点服务提供商网络。在另一种实施方式中,网络130被实现为内联网。在另一种实施方式中,网络130被实现为任何适当的蜂窝数据网络、基于单元的无线电网络技术或者无线网络。在另一种实施方式中,网络130被实现为任何合适的网络或者网络的组合。尽管示出了一个网络130,但是在其它实施方式中可以给出任意数量(相同或者不同类型)的网络。
在一种实施方式中,客户端计算机132可以包括服务器计算机100的一些或者全部元素。
图1是要绘出计算机系统100和网络130的代表性主要部件。但是,单个部件可以具有比图1中所表示的更高的复杂性、可以给出不同于图1中所示的部件或者另外给出,而且这种部件的数量、类型和配置可以变化。在此公开此类附加的复杂性或者附加的变体的几个特定示例;这些仅仅是作为示例而且不必仅是此类变体。图1中所例示的并且实现了本发明各种实施方式的各种程序部件可以按照多种方式实现,包括利用各种计算机应用程序、例程、部件、程序、对象、模块、数据结构等,而且在下文中称为“计算机程序”或者简单地称为“程序”。
计算机程序包括一个或多个指令或者语句,这些指令或者语句在不同的时间驻留在计算机系统100中不同的存储器和存储设备中,而且当被计算机系统100中的一个或多个处理器读取并执行时或者当被由一个或多个处理器执行的指令解释时,使计算机系统100实现执行包括本发明实施方式各方面的步骤或者元素所需的动作。本发明的实施方式的各方面可以体现为系统、方法或者计算机程序产品。相应地,本发明实施方式的各方面可以采取完全硬件实施、完全程序实施(包括存储在存储设备中的固件、驻留程序、微代码等)或者组合程序与硬件方面的实施的形式,它们在这里一般性地称为“电路”、“模块”或者“系统”。另外,本发明的实施方式可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,这些计算机可读介质上包括计算机可读程序代码。
可以采用一种或多种计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电的、磁的、光的、电磁的、红外的或者半导体的系统、装置或设备,或者以上所述的任何合适组合。计算机可读存储介质的更具体的示例(非穷尽列表)可以包括:具有一条或多条电线的电连接、便携式计算机盘、硬盘(例如,辅助存储设备125)、随机存取存储器(RAM)(例如,存储器102)、只读存储器(ROM)、可擦可编程只读存储器(EPROM)或者闪存、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁存储设备,或者以上所述的任何合适组合。在本文档的背景下,计算机可读存储介质可以是任何可以包含或存储由指令执行系统、装置或设备使用或者与之关联使用的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或者作为载波的一部分的、其上包括计算机可读程序代码的传播数据信息。这种传播信号可以采取多种形式中的任何一种,包括但不限于,电磁、光或者其任何合适组合。计算机可读信号介质可以是非计算机可读存储介质而且能够传送、传播或者运输由指令执行系统、装置或设备使用或者与之关联使用的程序的任何计算机可读介质。包括在计算机可读介质上的程序代码可以利用任何合适的介质发送,包括但不限于无线、有线线路、光纤线缆、射频等等,或者以上所述的任何合适组合。
用于执行本发明实施方式各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来写,所述编程语言包括面向对象的编程语言及传统的过程式编程语。程序代码可以完全在用户的计算机上、部分地在远端计算机上或者完全在远端计算机或服务器上执行。在后一种场景下,远端计算机可以通过任何类型的网络连接到用户的计算机,所述网络包括局域网(LAN)或者广域网(WAN),或者可以连接到外部计算机(例如,通过利用互联网服务提供商的互联网)。
以下参考对方法、装置(系统)和计算机程序产品的流程图例示和/或框图来描述本发明的实施方式的各方面。流程图例示和/或框图中的每个块,及流程图例示和/或框图中块的组合,可以由包括在计算机可读介质中的计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或者其它可编程数据处理装置的处理器来产生机器,使得经计算机的处理器或者其它可编程数据处理装置执行的指令生成用于实现流程图和/或框图的一个或多个块中所指定的功能/动作的装置。这些计算机程序指令也可以存储在计算机可读介质中,其中指令可以指示计算机、其它可编程数据处理装置或者其它设备以特定的方式运行,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个或多个块中所指定的功能/动作的指令的制造品。
定义本发明各种实施方式的功能的计算机程序可以经多种可以操作性或通信性连接(直接或者间接)到一个或多个处理器的有形计算机可读存储介质递送到计算机系统。计算机程序指令也可以加载到计算机、其它可编程数据处理装置或者其它设备上,使得在计算机、其它可编程装置或者其它设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机或者其它可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个块中所指定的功能/动作的处理。
附图中的流程图和框图例示了根据本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系结构、功能性和操作。就此而言,流程图或框图中的每一个块都可以代表一个模块、片段或者代码部分,这包括用于实现指定逻辑功能的一个或多个可执行指令。在有些实施方式中,块中所指出的功能可以不按照图中所指出的次序发生。例如,依赖于所涉及的功能性,顺序示出的两个块实际上可以基本上同时执行,或者块有时候可以按照颠倒的次序执行。框图和/或流程图例示中的每一个块,及框图和/或流程图例示中块的组合,可以由执行指定功能或者动作的专用的基于硬件的系统结合专用硬件和计算机指令来实现。
本发明的实施方式还可以作为与客户公司、非盈利组织、政府实体或者内部组织结构的服务约定的一部分来递送。这些实施方式的各方面可以包括将计算机系统配置成执行实现在此描述的一些或全部方法的计算服务(例如,计算机可读代码、硬件和网络服务),以及部署所述计算服务。这些实施方式的各方面还可以包括分析客户公司、响应于所述分析而创建建议、生成实现所述建议的部分的计算机可读代码、将所述计算机可读代码集成到现有处理、计算机系统和计算体系结构中、测量在此所述的方法与系统的使用、将花销分摊到用户并且针对用户使用这些方法与系统而给他们开账单。此外,下文中所述的各种程序可以基于在本发明具体实施方式中为其实现的应用来识别。但是,以下的任何特定程序术语都仅仅是为了方便而使用的,由此本发明的实施方式不限于仅在由这些术语识别和/或暗示的任何具体应用中使用。图1中所例示的示例环境不是要限定本发明。实际上,在不背离本发明实施方式的范围的情况下,可以采用其它另选的硬件和/或程序环境。
图2绘出了根据本发明实施方式的显示流行图200的用户I/O设备121的框图。流行图200是利用三维坐标系统的两维绘图来例示的,其中加权流行数据在y轴(垂直轴)204上,语句的强度在z轴206上,而时间段在x轴(水平轴)202上例示。由此,线208、210和212上的每个点都经三个数字坐标值代表一个语句(该语句包括主题A和主题B):在特定时间段期间一个强度值的加权流行数据值。加权流行数据是(文档150中存在的)包括主题A到主题B的关系的语句的(加权)数。该强度表征作者对语句中所陈述的关系的观点的强度或者确信。时间段是该强度和(加权)流行在文档150中存在的时间段。在一种实施方式中,流行图200例示了随着时间流逝对语句关系的比较,绘出了例如对于在文档150的域中所做的语句哪个语句强度异常或者稀少(最不流行)及哪个语句强度更普通或者代表主导观点(最流行)。示例流行图200例示了具有主题A和主题B的语句包括在2008年具有主导中性的强度(具有最高加权流行的大致为零的强度)但随着时间流逝变负的关系。
图3绘出了根据本发明实施方式的用于主题数据152的示例数据结构的框图。主题数据152包括示例记录302、304、306、308、310、312、314和316,其中每个记录都包括示例标识符字段320、示例第一主题字段322、示例关系字段324、示例第二主题字段326、示例强度字段328、示例添加日期字段330、示例修改日期字段332和示例删除日期字段334。
标识符字段320可以唯一地识别文档150中的语句。该标识符320可以通过识别文档150中的行、语句或者句子个数、通过识别包括语句的文档150、通过识别存储文档150的目录或者子目录、通过识别存储文档150的网络地址或者其任意组合,来唯一地识别语句。语句是文档150中的句子或者句子片段,并且包括第一主题322、关系324和第二主题326。第一主题322和第二主题326包括包含由在相同的记录中的标识符320所识别出的文档150中的名词的名词或者短语。在各种实施方式中,相同或者不同的作者可以创建、修改或者删除文档150中相同或者不同的语句。
关系324可以是动词或者动词短语,并且识别相同记录中第一主题322和第二主题326之间的关系、类别或者连接。关系的例子包括“是”、“不是”、“有”、“没有”、“导致”、“未导致”、“解决(cure)”、“为解决”和“无证据存在”。在各种实施方式中,关系324可以识别因果关系、分级关系、连接关系、伴随关系、量化关系、定性关系或者任何其它类型的关系。
在一种实施方式中,强度328是识别、表征或者描述相同记录中的关系324的强度(strength)、显著性、强烈程度(intensity)或者重要性的值,例如数字值。强度328描述由语句的作者陈述的关系324,并且表征该作者关于第一主题322和第二主题326之间的关系324的观点的确信的量或程度。例如,记录302中的强度328是比记录306中的强度328更大的(更正性的)数,这是因为记录302中的“导致”关系324比记录306中的“可能导致”关系324具有更高的作者确信或者确认度。类似地,记录312中的强度328是比记录314中的强度328更小(更高的绝对值)的数,这是因为记录312中的“不是”关系324比记录314中的“可能不是”关系324具有更高的作者确信或者确认度。记录316中的强度328为零,这是因为该语句的作者通过关系“无证据存在”指示了相同记录中的第一主题322和第二主题326之间的中性关系。中性关系的其它示例包括“不能得出结论”和“证据不足以支持决定”。
在一种实施方式中,强度328可以是正的、负的或者中性的。正的和负的强度识别相反的关系,而中性的强度在正的和负的强度之间。如果在两个主题之间具有高正强度的第一个语句是真的,那么在那两个主题之间具有高负(负号且具有高绝对值)强度(相反的强度)的第二个语句就是假的。如果在两个主题之间具有高正强度的第一个语句是假的,那么在那两个主题之间具有高负(负号且具有高绝对值)强度(相反的强度)的第二个语句就是真的。如果在两个主题之间具有高负(负号且具有高绝对值)强度的第一个语句是真的,那么在那两个主题之间具有高正强度(相反的强度)的第二个语句就是假的。如果在两个主题之间具有高负(负号且具有高绝对值)强度的第一个语句是假的,那么在那两个主题之间具有高正强度(相反的强度)的第二个语句就是真的。如果一个强度大于阈值数,那么它就是高度正的,而如果其小于另一个阈值数,就是高度负的。在其它实施方式中,对于强度328,可以使用任何范围的数。
添加日期字段330指定相同记录中的语句添加到文档150的日期。修改日期字段332指定相同记录中的语句在文档150中被修改、更新或改变的日期,该语句随后添加到文档150。删除日期字段334指定相同记录中的语句从文档150被删除或者除去的日期。在各种实施方式中,日期可以包括世纪、十年、年、月、日、星期几、时、分、秒或者其任意多个、部分和/或组合。
图4绘出了根据本发明实施方式的用于权值数据154的示例数据结构的框图。权值数据154包括示例记录402、404、406、408、410、412、414、416、418、420、422、424、426、428、430、432、434、436、438、440和442,其中每个记录都包括示例标识符字段450、示例时间段字段452和示例权值字段454。标识符450识别文档150中和主题数据152中的语句。权值454指定在相同记录中的相应时间段期间分配给由相同记录中的标识符450识别出的语句的权值。在不同的时间段中,相同的语句可以具有相同或者不同的权值。在一种实施方式中,权值454表征控制器158对(由相同记录中的标识符450识别出的)语句可靠性的评估。在另一种实施方式中,权值454指定(在相同记录中识别出的)语句为真的概率。控制器158设置权值454并使用权值454来计算用于不同时间段的加权流行数据,如以下进一步描述的。
图5绘出了根据本发明实施方式的用于流行数据156的示例数据结构的框图。流行数据156包括示例流行数据156-1和156-2,而且流行数据156一般指流行数据156-1和156-2。流行数据156-1和156-2用于主题的不同组合,而且主题的每种组合都可以具有其自己的流行数据,这可以彼此不同。
用于主题A和B的流行数据156-1包括记录502、504、506、508、510、512和514,其中每个记录都包括示例强度字段520、示例加权流行字段522和示例时间段字段524。加权流行522指定在相同记录中对应时间段524期间具有或者分配有对应强度520的文档150中(包括主题A和B的)语句的加权数。时间段524指定了时间的量或者跨度。在一种实施方式中,时间段524指定了勾画时间段的开始日期和结束日期。在各种实施方式中,日期可以包括世纪、十年、年、月、日、星期几、时、分、秒或者其任意多个、部分和/或组合。
例如,记录502指定了“+2”的强度520、“5.1”的加权流行数据522和“2010”的时间段524,这指示主题数据152包括“5.1”的(加权)记录数(加权流行522),其中这些记录在第一主题322和第二主题326中具有“A”和“B”,还指示具有“+2”的强度328而且具有“2010”或者以后的添加日期值330。加权流行522可以指定主题数据152中的记录的非整数个数,因此控制器158经权值数据154调整记录的个数,如以下进一步描述的。
图6绘出了根据本发明实施方式的用于创建主题数据的示例处理的流程图。控制在块600开始。然后,控制继续到块605,在块605,控制器158确定文档150已经被改变。在一种实施方式中,用户经用户I/O设备121请求文档150的变化,其中用户I/O设备121将命令和数据发送到控制器158或者字处理器,而控制器158或者字处理器更新文档150。在另一种实施方式中,在处理器101上执行的程序改变文档150,或者控制器158经网络130从客户端计算机132接收命令和可选的数据。
然后,控制继续到块610,在块610,控制器158找出受文档150的改变影响的语句,该语句包括两个主题和一个关系。在一种实施方式中,控制器158经UIMA架构确定所找出的语句的主题与关系。在其它实施方式中,控制器158可以使用自然语言处理(NLP)、计算语言学、词性标注(speech tagging)、话语分析、共指消解(co-referenceresolution)、形态分割、命名实体识别(NER)、光学字符识别(OCR)、解析树的语法解析、关系提取、语音识别、语音分割、主题分割与识别的技术,或者其任何组合。
然后,控制继续到块615,在块615,控制器158确定所找出的语句是否通过对文档150的改变添加到文档150。如果块615的确定是真,则所找出的语句通过对文档150的改变而添加,因此控制继续到块620,在块620,控制器158确定关系的强度。在各种实施方式中,控制器158经UIMA架构或者任何其它适当的自然语言处理技术确定关系的强度。然后,控制继续到块625,在块625,控制器158将所找出的语句的标识符、所找出的语句的主题、所找出的语句中主题的关系、该关系的强度及该语句添加到文档150的日期存储到主题数据152的新记录中。然后,控制继续到块630,在块630,控制器158确定是否所有语句都已经被在块610开始的循环处理过了。如果块630的确定为真,则改变后的文档150中的所有语句都已经被在块610开始的循环处理过了,因此控制返回块605,在块605,控制器158确定已经由相同或者不同的作者对相同或者不同的文档150进行了其他改变,如上所述。如果块630的确定为假,则不是改变后的文档150中的所有语句都已经被在块610开始的循环处理过了,因此控制返回块610,在块610,控制器158找出受文档150的改变影响的其他语句,如上所述。
如果块615的确定为假,则所找出的语句没有通过对文档150的改变而添加,因此控制继续到块635,在块635,控制器158确定所找出到的语句是否通过对文档150的改变而被修改了。如果块635的确定为真,则所找出的语句通过对文档150的改变而被修改了,因此控制继续到块640,在块640,控制器158确定关系的强度并且将第一主题和第二主题(如果修改了的话)、关系(如果修改了的话)、该关系的强度(如果修改了的话)及语句被修改的日期都存储到主题数据152中包括与所找出语句的标识符匹配的标识符320的记录。然后,控制继续到块630,如上所述。
如果块635的确定为假,则所找出的语句通过对文档150的改变而被删除,因此控制继续到块645,在块645,控制器158将所找出的语句被删除的日期存储到主题数据152中包括与所找出语句的标识符匹配的标识符320的记录。然后控制继续到块630,如上所述。
图7绘出了根据本发明实施方式的用于更新权值数据和主题数据的示例处理的流程图。在一种实施方式中,图7的逻辑是同时、基本同时或者在相同或不同处理器上交织执行的,就象图6和8的逻辑。控制在块700开始。
然后,控制继续到块705,在块705,控制器158确定当前时间段已结束。然后,控制继续到块710,在块710,控制器158将用于在当前时间段期间添加到文档150的语句的当前时间段权值设成零。即,控制器158在主题数据152的包括添加日期字段330中的日期在当前时间段开始之后且在当前时间段结束之前的记录中找到标识符320。然后,控制器158将新记录存储到包括在主题数据152中找到的标识符、当前时间段的说明和零权值的权值数据154。对于任何之前的时间段,控制器158还将新纪录存储到指定所找到的标识符、对任何之前时间段的说明和零权值的权值数据154。由此,新添加的语句对它们添加到其文档150中的时间段而且对于它们添加到其文档150中的时间段之前的任何时间段具有为零的初始权值。
然后,控制继续到块715,在块715,控制器158与自语句添加到文档150时起的时间量成比例地减小用于语句的当前时间段权值。即,控制器158找出权值数据154中具有指定匹配当前时间段的时间段的时间段字段452的记录。对于权值数据154中找出的具有匹配当前时间段的时间段字段452的每个记录,控制器158找出主题数据152中具有与所找到的权值数据记录中的标识符450匹配的标识符320的对应记录。控制器158读取主题数据152中(具有与所找到的权值数据记录中的标识符450匹配的标识符320的)对应记录中的添加日期字段330,并与自添加日期330到当前时间段结束所经过的时间量成比例地减小权值454。与自语句添加到文档150时起所经过的时间量成比例地减小权值454意味着,随着语句年龄增加(自语句被添加起所经过的时间增加),用于该语句的权值454减小,从而反映了控制器158的加权估计策略,这种策略是在所有其它因素相同的情况下,越旧的语句比越新的(最近添加的)语句越不可靠或者越不可能是真的或者准确的。
然后,控制继续到块720,在块720,控制器158针对在当前时间段中修改过的语句增加当前时间段权值。即,控制器158在权值数据154中找出具有指定匹配当前时间段的时间段的时间段字段452的记录。对于权值数据154中每个找到的具有匹配当前时间段的时间段字段452的记录,控制器158找出主题数据152中具有与所找到的权值数据记录中的标识符450匹配的标识符320的对应记录。控制器158读取主题数据152中(具有与所找到的权值数据记录中的标识符450匹配的标识符320的)对应记录中的修改日期字段332。如果修改日期字段332的内容在当前时间段之内(在当前时间段开始之后并且在当前时间段结束之前),则控制器158增加权值454。在各种实施方式中,控制器158增加权值454的量是由控制器158的设计者设置、由用户或者计算机系统管理员经用户I/O设备121提交、由控制器158从计算机系统100中执行的应用程序接收或者由控制器158经网络130从客户端计算机132接收。如果修改日期字段332的内容不在当前时间段之内(在当前时间段开始之前或者在当前时间段结束之后),则控制器158不增加权值454。对已经修改了的语句增加权值454反映了控制器158的加权评估策略,这种策略是,在所有其它因素相等的情况下,修改了的语句比未修改的语句更可靠或者更有可能是真的或者准确的。
然后,控制继续到块725,在块725,对于在当前时间段期间从文档150删除的语句或者处于在当前时间段期间被删除的文档150中的语句,控制器158可选地:1)从主题数据152和权值数据154除去语句;2)允许语句保留在主题数据152中,并减小语句的当前时间段权值(用于其中语句被删除的当前时间段的权值);或者3)允许语句保留在主题数据152中,并且增加包括与被删除语句具有相反强度的相同的两个主题的语句的权值。由此,控制器158针对具有与被删除的第二语句子集的强度相反的强度的第一语句子集增加权值。在一种实施方式中,相反的强度具有不同的符号但具有相同的绝对值。然后,控制返回块705,在块705,控制器158等待下一个当前时间段结束,如上所述。块725的处理反映了控制器158的加权评估策略,这种策略是,在所有其它因素相等的情况下,已经从文档158删除的语句比保留在文档150中的语句更不可靠或者更不可能是真的或者准确的。
图8绘出了根据本发明实施方式的用于创建流行数据的示例处理的流程图。控制在块800开始。然后,控制继续到块805,在块805,控制器158接收请求显示流行图200的命令。该命令指定两个主题和一个或多个时间段。然后,控制继续到块810,在块810,响应于该命令,控制器158创建用于两个主题的流行数据,将用于在每个强度520处针对每个指定时间段的加权流行522存储成用于在相应的时间段中具有相应强度的语句的权值454之和。然后,控制继续到块815,在块815,响应于该命令,控制器158在流行图200上显示或者绘制流行数据156。然后,控制继续到块899,在块899,图8的逻辑返回。
在此所使用的术语仅仅是为了描述特定实施方式而不是要成为本发明的限制。除非上下文明确地另外指出,否则在此所使用的单数形式“一”、“一个”和“该”也要包括复数形式。还应当理解,本说明书中使用的术语“包括”指定所述特征、整体、步骤、操作、元素和/或部件的存在,但不排除一个或多个其它特征、整体、步骤、操作、元素、部件和/或其组合的存在或添加。在前面对本发明示例实施方式的具体描述中,参照了附图(其中类似的编号代表类似的元件),其中附图构成本说明书的一部分而且其中通过例示示出了可以在其中实践本发明的具体示例实施方式。这些实施方式以足够多的细节进行了描述,使得本领域技术人员能够实践本发明,但也可以使用其它实施方式,而且在背离本发明范围的情况下,可以进行逻辑的、机械的、电的或者其它变化。在前面的描述中,阐述了各种具体细节,以便提供对本发明实施方式的透彻理解。但是,本发明的实施方式没有这些具体细节也可以实践。在其它情况下,为了不模糊本发明的实施方式,众所周知的电路、结构和技术没有具体示出。本说明书中所使用的词“实施方式”的不同实例不必指相同的实施方式,但也可以是相同的实施方式。在此例示或者描述的任何数据和数据结构都仅仅是示例,而且在其它实施方式中,可以使用不同的数据量、数据类型、字段、字段的个数和类型、字段名称、行的个数和类型、记录、条目或者数据的组织。此外,任何数据都可以与逻辑组合,使得单独的数据结构是不必要的。因此,前面的具体描述不应当从限制的意义上去看待。
Claims (13)
1.一种方法,包括:
针对多个相应语句中的多个相应关系确定相应的强度;
与自添加所述多个相应语句时起的相应时间量成比例地减小用于所述多个相应语句的权值;
增加用于修改了的多个语句的权值;
将针对所述多个相应语句在多个相应时间段中的多个加权流行数据计算为,具有所述相应强度的所述多个相应语句在所述多个相应时间段中的权值之和;及
针对每个所述相应强度在所述多个相应时间段中的每一个时间段,显示所述多个加权流行数据。
2.如权利要求1所述的方法,其中,所述显示还包括;
针对每个所述相应强度在所述多个相应时间段中的每一个时间段,显示用于两个主题的所述多个加权流行数据,其中所述多个相应语句中的每一个都包括所述两个主题的所述多个相应关系。
3.如权利要求2所述的方法,还包括:
响应于指定所述两个主题和所述多个相应时间段的命令,执行所述显示。
4.如权利要求2所述的方法,其中,如果第一语句为真而且该第一语句包括具有第一强度的两个主题,则包括具有与所述第一强度相反的第二强度的所述两个主题的第二语句为假。
5.如权利要求2所述的方法,其中,如果第三语句为假而且该第三语句包括具有第三强度的两个主题,则包括具有与所述第三强度相反的第四强度的所述两个主题的第四语句为真。
6.如权利要求1所述的方法,还包括:
针对被删除的多个语句减小权值。
7.如权利要求1所述的方法,还包括:
针对所述多个相应语句的第一子集增加权值,所述第一子集具有与被删除的多个语句的第二子集的相应强度相反的强度。
8.一种计算机,包括:
处理器;及
通信耦合到所述处理器的存储器,其中该存储器以指令编码,其中所述指令当在所述处理器上执行时包括:
针对多个相应语句中的多个相应关系确定相应的强度;
与自添加所述多个相应语句时起的相应时间量成比例地减小用于所述多个相应语句的权值;
增加用于修改了的多个语句的权值;
将针对所述多个相应语句在多个相应时间段中的多个加权流行数据计算为,具有所述相应强度的所述多个相应语句在所述多个相应时间段中的权值之和;及
针对每个所述相应强度在所述多个相应时间段中的每一个时间段,显示所述多个加权流行数据,其中,
所述显示还包括:针对每个所述相应强度在所述多个相应时间段中的每一个时间段,显示用于两个主题的所述多个加权流行数据,其中所述多个相应语句中的每一个都包括所述两个主题的所述多个相应关系。
9.如权利要求8所述的计算机,其中所述指令还包括:
响应于指定所述两个主题和所述多个相应时间段的命令,执行所述显示。
10.如权利要求8所述的计算机,其中,如果第一语句为真而且该第一语句包括具有第一强度的两个主题,则包括具有与所述第一强度相反的第二强度的所述两个主题的第二语句为假。
11.如权利要求8所述的计算机,其中,如果第三语句为假而且该第三语句包括具有第三强度的两个主题,则包括具有与所述第三强度相反的第四强度的所述两个主题的第四语句为真。
12.如权利要求8所述的计算机,其中所述指令还包括:
针对被删除的多个语句减小权值。
13.如权利要求8所述的计算机,其中所述指令还包括:
针对所述多个相应语句的第一子集增加权值,所述第一子集具有与被删除的多个语句的第二子集的相应强度相反的强度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/971,769 US20120158742A1 (en) | 2010-12-17 | 2010-12-17 | Managing documents using weighted prevalence data for statements |
US12/971,769 | 2010-12-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102567455A true CN102567455A (zh) | 2012-07-11 |
Family
ID=46235774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110360030XA Pending CN102567455A (zh) | 2010-12-17 | 2011-11-15 | 利用语句的加权流行数据来管理文档的方法与系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120158742A1 (zh) |
CN (1) | CN102567455A (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9594788B2 (en) * | 2011-02-25 | 2017-03-14 | International Business Machines Corporation | Displaying logical statement relationships between diverse documents in a research domain |
US9892362B2 (en) | 2014-11-18 | 2018-02-13 | International Business Machines Corporation | Intelligence gathering and analysis using a question answering system |
US11204929B2 (en) | 2014-11-18 | 2021-12-21 | International Business Machines Corporation | Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system |
US11244113B2 (en) | 2014-11-19 | 2022-02-08 | International Business Machines Corporation | Evaluating evidential links based on corroboration for intelligence analysis |
US10318870B2 (en) | 2014-11-19 | 2019-06-11 | International Business Machines Corporation | Grading sources and managing evidence for intelligence analysis |
US9472115B2 (en) * | 2014-11-19 | 2016-10-18 | International Business Machines Corporation | Grading ontological links based on certainty of evidential statements |
US11836211B2 (en) | 2014-11-21 | 2023-12-05 | International Business Machines Corporation | Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data |
US9727642B2 (en) | 2014-11-21 | 2017-08-08 | International Business Machines Corporation | Question pruning for evaluating a hypothetical ontological link |
US11210300B2 (en) * | 2015-05-14 | 2021-12-28 | NetSuite Inc. | System and methods of generating structured data from unstructured data |
US10606893B2 (en) | 2016-09-15 | 2020-03-31 | International Business Machines Corporation | Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660819B1 (en) * | 2000-07-31 | 2010-02-09 | Alion Science And Technology Corporation | System for similar document detection |
US20090125498A1 (en) * | 2005-06-08 | 2009-05-14 | The Regents Of The University Of California | Doubly Ranked Information Retrieval and Area Search |
GB2430507A (en) * | 2005-09-21 | 2007-03-28 | Stephen Robert Ives | System for managing the display of sponsored links together with search results on a mobile/wireless device |
US20070226195A1 (en) * | 2006-03-21 | 2007-09-27 | Mark Mallen Huck | Methods and apparatus for content search using logical relationship taxonomies |
US9342551B2 (en) * | 2007-08-14 | 2016-05-17 | John Nicholas and Kristin Gross Trust | User based document verifier and method |
US20100257117A1 (en) * | 2009-04-03 | 2010-10-07 | Bulloons.Com Ltd. | Predictions based on analysis of online electronic messages |
US8954434B2 (en) * | 2010-01-08 | 2015-02-10 | Microsoft Corporation | Enhancing a document with supplemental information from another document |
US8407217B1 (en) * | 2010-01-29 | 2013-03-26 | Guangsheng Zhang | Automated topic discovery in documents |
US8478754B2 (en) * | 2010-12-08 | 2013-07-02 | Piracloud, Inc. | Method and system for personality comparison via public consensus |
-
2010
- 2010-12-17 US US12/971,769 patent/US20120158742A1/en not_active Abandoned
-
2011
- 2011-11-15 CN CN201110360030XA patent/CN102567455A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20120158742A1 (en) | 2012-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567455A (zh) | 利用语句的加权流行数据来管理文档的方法与系统 | |
US11556697B2 (en) | Intelligent text annotation | |
US10957213B2 (en) | Managing answer feasibility | |
US11573954B1 (en) | Systems and methods for processing natural language queries for healthcare data | |
US9652719B2 (en) | Authoring system for bayesian networks automatically extracted from text | |
US8359193B2 (en) | Pre-highlighting text in a semantic highlighting system | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN108920453A (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
US20180293302A1 (en) | Natural question generation from query data using natural language processing system | |
TW200900966A (en) | Client input method | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
US12106054B2 (en) | Multi case-based reasoning by syntactic-semantic alignment and discourse analysis | |
US20180246954A1 (en) | Natural language content generator | |
US20210057068A1 (en) | Identifying Information in Plain Text Narratives EMRs | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
JP2022093317A (ja) | コンピュータ実装方法、システム、およびコンピュータプログラム製品(過去に提示された情報の認識および再構築) | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
KR102442338B1 (ko) | 사용자 행위 기반의 가치 변동률 제공 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
US20180293508A1 (en) | Training question dataset generation from query data | |
CN117795521A (zh) | 由参考文件指导的机器翻译 | |
EP3552114A1 (en) | Natural language content generator | |
KR102442335B1 (ko) | 즉각적인 투자 수단 제공 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
Henrich et al. | LISGrammarChecker: Language Independent Statistical Grammar Checking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120711 |