CN104081385A - 从文档表示信息 - Google Patents

从文档表示信息 Download PDF

Info

Publication number
CN104081385A
CN104081385A CN201280032515.9A CN201280032515A CN104081385A CN 104081385 A CN104081385 A CN 104081385A CN 201280032515 A CN201280032515 A CN 201280032515A CN 104081385 A CN104081385 A CN 104081385A
Authority
CN
China
Prior art keywords
attribute
predefine
text
file characteristics
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280032515.9A
Other languages
English (en)
Other versions
CN104081385B (zh
Inventor
H.H.马利克
V.S.巴瓦
H.菲奥尔勒塔
A.拉法特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Financial and Risk Organisation Ltd
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN104081385A publication Critical patent/CN104081385A/zh
Application granted granted Critical
Publication of CN104081385B publication Critical patent/CN104081385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了用于将被包括在非结构化文本文档中的信息表示成结构化格式的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。

Description

从文档表示信息
技术领域
本公开涉及从非结构化信息表示信息,并且更具体地涉及用于自动以结构化格式而从非结构化文档表示信息的系统和方法。
背景技术
现今有主要地以被包括在文档中的非结构化文本数据的形式的越来越多的信息量,其与投资者的决策过程有关。当该信息是大量的时,投资者所需要用以识别术语和领会被包括在这些文档中的语义的努力可能是辛苦的。尽管文档的电子存储已经简化了浏览多重和大文档的过程,浏览大量文本以理解和快速定位感兴趣的信息仍然是困难和耗时的。
例如,企业新闻发布通常在非结构化(例如自由形式)文本中连同附加信息一起识别企业金融事件,诸如红利、每股收益、管理和所有制结构等等。解析该信息以识别感兴趣的项目是耗时的过程。此外,虽然大多数文字处理工具确实提供用于在文档中搜索单独项目的机制,但是这些工具中没有一个提供伴随感兴趣的项目的补充信息。
因此,有用于从非结构化数据提供信息的改进的系统和技术的需要,所述信息诸如事实和事件。
发明内容
公开了用于以结构化格式来表示被包括在非结构化文本文档中的信息的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。
所述系统和技术的各种方面涉及计算概率值和组合概率值以生成分类评分。
例如,根据一个方面,方法包括识别被包括在非结构化文本文档中的事件的属性,其中每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;并且将多个分类器中的至少一个应用于每个所生成的特征。所述至少一个先前使用预定义事件属性所训练的分类器对应于所述所识别的事件属性。
所述方法也包括从由所述至少一个分类器使用概率估计模型所生成的分类器评分来计算概率值,其中所述概率值指示所识别事件属性的似然性,所述所识别事件属性对应于所述预定义事件属性集合中之一;组合与所识别属性相关联的多个所计算的概率值以生成分类评分;并且至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。
在一个实施例中,所述方法此外包括使用至少一个置信度模型来向事件分配置信度评分,比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分,并且基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。
在又一个方面,方法包括访问非结构化文本文档以识别事件和与事件相关联的属性集合,其中所述属性集合与预定义事件属性集合有关,并且生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素。对于在所述文档特征集合中的第一文档特征,所述方法包括生成第一分类器评分,其中所述第一分类器评分是利用先前已经使用预定义事件属性集合所训练的分类器被生成的,并且基于所述第一分类器评分而使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性。
所述方法也包括,对于在所述文档特征集合中的第二文档特征,生成第二分类器评分,所述第二分类器评分是利用分类器所生成的,并且基于所述第二分类器评分而使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性。
所述方法此外包括使用第一概率值和第二概率值而生成分类评分并且基于所述分类评分而以结构化数据格式从非结构化文本文档表示事件和属性集合。
公开了一种系统,以及包括存储用于实施各种技术的机器可读指令的机器可读媒介的产品。以下更详细地讨论各种实施的细节。
从以下详细描述、附图和权利要求,附加特征和优点将是显而易见的。
附图说明
图1是用于从非结构化文本文档表示信息的示范性基于计算机的系统的示意图。
图2说明用于训练在图1中所示出的基于计算机的系统的示范性方法。
图3说明用于从非结构化文本文档表示信息的示范性方法。
图4说明用于训练图1的基于计算机的系统的示范性用户界面。
在各种图中同样的参考符号指示同样的元件。
具体实施方式
本发明包括方法和系统,其便于从非结构化数据将事件(例如事实)和所识别的事件属性(例如与事件有关的信息)自动提取(例如表示)成结构化数据格式。可以在本发明的情况下所使用的非结构化数据的示例包括但不限于书、杂志、文档、元数据、健康记录、金融记录和非结构化文本,所述非结构化文本诸如新闻报道、企业新闻发布、电子邮件消息的正文、网页以及文字处理器文档。
结构化数据格式指定数据将如何被组织并且包括使信息的结构和内容标准化的规则。由本发明所生成的示例结构化数据格式包括但不限于可扩展标记语言(XML)、可扩展商业报告语言(XBRL)、超文本标记语言(HTML)和具有所公布的规范文档的其它数据格式。
所述方法和系统在以下情景中是特别有益的,在所述情景中,金融事件连同多重其它事实一起被包括在非结构化文本中,所述多重其它事实中的一些涉及金融事件和其中一些不涉及金融事件。
例如,企业新闻发布可以包括事件,诸如股票红利宣告,所述股票红利宣告与其相关联地具有股票红利是可支付的时段和识别支付股票红利的商行(business concern)的实体名称,其是市场专业人员感兴趣的。所述新闻发布也可以包括与红利事件无关的附加信息,诸如新员工福利信息,其可能对于市场专业人员是较少感兴趣的。使用本发明,市场专业人员不需要花时间阅读整个新闻发布和在新员工福利信息中挑选,因为市场专业人员所感兴趣的红利和有关信息可以以若干结构化数据格式之一被自动提供给市场专业人员。
现在转向图1,公开了一种适合的计算系统10的示例,在所述计算系统10中,本发明的实施例可以被实施。所述计算系统10只是一个示例并且不意图暗示关于本发明的使用或功能性的范围的任何限制。所述计算系统10也不应当被解释为具有与所说明组件的任何一个或组合有关的任何依赖性或要求。
例如,本发明用许多其它通用或专用计算消费电子设备、网络PC、小型计算机、大型(mainframe)计算机、膝上型计算机以及包括任何以上系统或设备的分布式计算环境等等是可操作的。
可以在由计算机所执行的计算机可执行指令的通常上下文中描述本发明,所述计算机可执行指令诸如程序模块。通常,程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和构造等等。本发明可以在分布式计算环境中被实行,在所述分布式计算环境中,任务由远程处理设备执行,所述远程处理设备通过通信网络被链接。在分布式计算环境中,程序模块位于包括存储器存储设备的本地和远程计算机存储媒介这两者中。在以下并且借助于图来描述由程序和模块所执行的任务。本领域技术人员可以将描述和图实施为处理器可执行指令,所述处理器可执行指令可以被写在任何形式的计算机可读媒介上。
参考图1,在一个实施例中,系统10包括服务器设备12,所述服务器设备12被配置以包括诸如中央处理单元(‘CPU’)的处理器14、随机存取存储器(‘RAM’)16、诸如显示设备(未示出)和键盘(未示出)的一个或多个输入-输出设备18和非易失性存储器20,所有这些经由公共总线22被互相连接并且由处理器14控制。
如在图1示例中所示出的,在一个实施例中,非易失性存储器20被配置以包括规格化(normalization)模块24、特征模块26、分类模块28、置信度模块30和提取模块32,所述规格化模块24用于从非结构化文本文档识别事件属性,诸如货币、金融限定符、时段、定界符、实体名称和在金融领域中有重大意义的其它项目,所述特征模块26用于生成描述在非结构化文本文档中所出现的诸如单词、术语、标点符号等等的项目的文档特征(例如数字向量),所述分类模块28用于归类文档特征集合并且向在非结构化文本文档中所出现的项目分配分类评分,置信度模块30用于确定在从非结构化文本文档识别事件方面的准确度,所述提取模块32用于从非结构化文本文档以结构化数据格式来表示事件和任何所识别的事件属性。如此处所使用的,单词‘集合’和‘多个集合’指的是从空集合至多元素集合的任何事物。结合图2、3和4来讨论这些模块24、26、28、30和32的附加细节。
提供网络32,其可以包括各种设备,诸如被连接在内联网、外联网或互联网配置中的路由器、服务器和交换元件。在一个实施例中,网络32使用有线通信以在访问设备(未示出)、服务器设备12和数据存储装置34之间传递信息。在另一个实施例中,网络32采用无线通信协议以在访问设备、服务器设备12和数据存储装置34之间传递信息。还在其它实施例中,网络32采用有线和无线技术的组合以在访问设备、服务器设备12和数据存储装置34之间传递信息。
数据存储装置34是维护和存储由前述模块24、26、28、30和32所利用的信息的仓库。在一个实施例中,数据存储装置34是关系数据库。在另一个实施例中,数据存储装置34是目录服务器,诸如轻量目录访问协议(‘LDAP’)。在又一个实施例中,数据存储装置34是服务器12的非易失性存储器20的区域。
如在图1示例中所示出的,在一个实施例中,数据存储装置34包括训练文档集合36、所提供的多个特征生成方案(schema)38和所提供的预定义规则集合40,所述训练文档集合36由分类模块28使用以在事件属性上训练多重二进制分类器,所述多个特征生成方案38由特征模块26应用来为训练文档集合36和非结构化文档集合44生成文档特征,如果被包括在非结构化文档集合之一中的属性被肯定地识别,则所述预定义规则集合40由分类模块28应用。
数据存储装置34也包括预定义事件集合42。预定义事件42中的每一个包括与之相关联的至少一个预定义事件属性。例如,在一个实施例中,被命名为“红利”的预定义事件与之相关联地具有以下预定义事件属性:数量、时期和限定符。在一个实施例中,每个预定义事件属性与系统中的唯一识别符相关联。所述数据存储装置34也包括一个或多个所训练的置信度模型46和概率估计模型48,所述置信度模型46提供在非结构化文档集合44中所识别的事件的准确度确定,所述非结构化文档集合44在一个实施例中可能包括通过实时数据馈给所接收的一个或多个新项目,所述概率估计模型48用以从由分类模块28所计算的分类评分来计算概率值。以下更详细地讨论被包括在数据存储装置34中的信息的附加细节。
尽管在图1中所示出的数据存储装置34被连接到网络32,但是将由本领域技术人员所意识到的是,在图1中所示出的数据存储装置34和/或任何信息36-48可以跨越各种服务器而分布并且通过网络32对服务器12是可访问的、被直接耦合到服务器12或被配置在服务器12的非易失性存储器20的区域中。
此外,应当注意的是,在图1中所示出的系统10只是本公开的一个实施例。本公开的其它系统实施例可以包括没有被示出的附加结构,诸如二级存储装置和附加计算设备。另外,本公开的各种其它实施例包括比在图1中所示出的实施例更少的结构。例如,在一个实施例中,在非联网独立式配置中在单个计算设备上实施本公开。数据输入经由诸如键盘和/或鼠标的输入设备被传送到计算设备。系统的数据输出从计算设备被传送到显示设备,诸如计算机监控器。
现在转到图2,公开了一种用于训练在图1中所示出的基于计算机的系统的示例方法。首先,在步骤50处,规格化模块24规格化训练文档集合36中的每个文档。在一个实施例中,每个文档的规格化包括为训练文档集合中的每个识别来自金融领域的有重大意义的记号(例如单词、短语、字母序列、数字和特定字符)。
其次,在步骤52处,规格化模块24在每个训练文档中识别候选属性。如此处所使用的,术语‘候选属性’指的是以下单词、短语或有重大意义的其它记号,所述单词、短语或有重大意义的其它记号可能涉及与系统中预定义事件42中之一相关联的预定义属性。例如,在一个实施例中,候选属性包括但不限于被包括在每个训练文档中的货币、金融限定符、时段、定界符和实体名称。规格化模块24于是在每个训练文档内向每个有重大意义的所识别的记号分配唯一识别符。
参考图4,在一个实施例中,规格化模块24提供用户界面,所述用户界面向诸如人类专家的用户显示每个经规格化的训练文档。规格化模块24在每个训练文档内将每个所识别的候选属性显示为文本的标记/标签部分(marked-up/tagged portion)。如在图4示例中所示出的,专家可以识别由唯一识别符在系统中所表示的文本的标记/标签部分,所述文本的标记/标签部分对于(例如,对应于)与事件42相关联的预定义事件属性集合中的任何属性是阳性的(positive)。规格化模块24于是生成(MT ij ,S k )对,所述(MT ij ,S k )对表示对于预定义事件属性S k 是阳性的、在文档T i 中的文本M的第j个标记/标签部分。所有这种对的集合P于是由规格化模块24存储在数据存储装置34中。
在一个实施例中,对于每个预定义事件属性S k ,规格化模块24从训练文档集合36识别阳性示例和阴性(negative)示例。阳性示例是对集合P中的对应于预定义事件属性S k 中之一的所有对。阴性示例是P中的不对应于预定义事件属性S k 、但具有与S k 类似的属性类型的所有对。例如,如果S k 是数字红利值,则所有其它数字值被识别为阴性示例。
参考回图2,一旦阳性和阴性示例被确定,则在步骤54处,特征模块26为每个所识别的阳性和阴性示例生成一个或多个文档特征。在一个实施例中,特征模块26在每个阳性和阴性示例的潜在(例如,候选)事件属性周围的一部分非结构化文本(例如,标记/标签文本)上生成一个或多个文档特征(例如,数字向量)。非结构化文本的所述部分的大小是用户可配置的。例如,参考非结构化文本的以下示例,在候选事件属性“0.45p”周围的非结构化文本的该部分是“Board is recommending, subject to shareholder approval, a total dividend for the year of 0.45p per share(2009:0.4p per share) ”。
本发明的特征模块26利用多个特征生成方案38(例如,算法)用以为阳性和阴性示例生成文档特征。例如,在一个实施例中,特征生成方案包括但不限于以下方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值(Figure)-值-阈”、“N元(N-Grams)”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
特征模块26使用词袋方案来为在包括标记/标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征并且基于每个唯一单词、短语或经规格化的文本分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。例如,参考非结构化文本的前述示例,所提取的一元(unigram)包括“Board”、“is”、“recommending”、“subject”等等。
特征模块26使用最远距离/最近距离方案来为标记/标签信息生成文档特征。在一个实施例中,特征模块26比较标签信息和与预定义事件属性集合相关联的多个预定义文本,并且然后基于所述比较为所述标签信息生成文档特征。特征模块26于是向所生成的文档特征分配特征值,所述特征值表示在标记/标签信息和候选属性之间的空间距离。
例如,参考非结构化文本的前述示例,如果单词“recommending”和“dividend”是与预定义事件属性集合相关联的预定义文本的部分,则被分配给所生成的文档特征的特征值将是11/21和5/21,其中11和5是离候选属性“.45p”的词距(word distance)并且二十一(21)表示在非结构化文本的前述示例中的单词数目。
特征模块26使用之前或之后方案来为在与预定义事件属性相关联的预定义文本列表中所出现的标记/标签信息生成文档特征。在一个实施例中,特征模块26比较标记/标签信息和与预定义事件属性集合相关联的多个预定义文本,基于所述比较为所述标记/标签信息生成文档特征,并且于是如果所述标记/标签信息被包括在所述多个预定义文本中并且所述标记/标签信息在该部分非结构化文本中出现在候选属性之后,则向所生成的文档特征分配第一特征值、例如数字一(1)。如果所述标记/标签信息被包括在所述多个预定义文本中、在该部分非结构化文本中出现在所述至少一个候选属性之前,则特征模块26向所生成的文档特征分配第二特征值、例如负一(-1),并且如果标签信息没有被包括在所述多个预定义文本中,则向所生成的文档特征分配第三特征值、例如零(0)。
例如,参考非结构化文本的前述示例,如果短语“per share”和“recommending”是与数值事件属性相关联的预定义文本的部分,则特征模块26分别分配一(1)和负一(-1)的特征值,因为“per share”在示例文本中出现在数值候选属性之后并且“recommending”在示例文本中出现在数值候选属性之前。
特征模块26使用存在限定符方案来为在该部分非结构化文本中所出现的限定术语(例如,区分、表征或区别候选属性的术语)生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的限定符文本,为所识别的限定符文本生成文档特征并且然后向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
例如,参考非结构化文本的前述示例,如果预定义限定符文本包括单词“total”、“final”、“interim”和“basic”,则特征模块26可以分别向所生成的文档特征分配一(1)、零(0)、零(0)和零(0)的特征值,因为只有单词“total”存在于示例非结构化文本中。
特征模块26使用存在定界符方案来为在该部分非结构化文本中所出现的每个定界符(例如,逗号、冒号、括号、句点等等)生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的定界符,为所识别的定界符生成文档特征并且然后向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性相关联的多个预定义定界符中。
特征模块26使用数值-值-阈方案来为数字事件属性生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的数字事件属性,为所识别的数字事件属性生成文档特征,比较数字事件属性与预定义阈值;并且基于所述比较向所生成的文档特征分配特征值。如果数字事件属性没有超过阈值,则特征模块26可以分配一(1)的特征值并且如果数字事件属性超过阈值则分配零(0)的特征值。
特征模块26使用N元方案来为在该部分非结构化文本中所出现的每个单一N元(例如,二元、三元等等)生成文档特征并且将所述N元在该部分非结构化文本窗中所出现的次数用作文档特征频率。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的每个单一N元,为每个所识别的N元生成文档特征并且然后基于每个所识别的单一N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
例如,参考非结构化文本的前述示例并且使用二元,使用N元方案的特征模块26将生成以下作为文档特征:“Board is”、“is recommending”、“per share”等等。
特征模块26使用标题词方案来为在非结构化文本的标题和该部分非结构化文本这两者中所出现的标记/标签信息生成文档特征。例如,在一个实施例中,特征模块26为标记/标签信息生成文档特征并且向每个所生成的文档特征分配特征值,所述特征值表示标签信息是否被包括在与非结构化文本文档相关联的标题中以及也被包括在与预定义事件属性集合相关联的多个预定义文本中。
特征模块26使用上下文中时期方案来为依赖时期的事实类型生成文档特征并且基于从文档上下文(例如,文档标题或元数据(metadata))所识别的时期是否对应于在该部分非结构化文本中所指定的时期来向所生成的文档特征分配特征值。在一个实施例中,特征模块26从非结构化文本文档的上下文识别依赖时期的属性,其中所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据中之一定义;为依赖时期的属性生成文档特征;并且如果所述依赖时期的属性被包括在该部分非结构化文本中则向所生成的文档特征分配第一特征值。
特征模块26使用最近单匹配标签方案来为最接近于候选属性分别在其左边或右边所出现的标记/标签信息生成文档特征。例如,在一个实施例中,特征模块26为最接近于被包括在该部分非结构化文本中的候选属性的标记/标签信息生成文档特征并且基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配特征值。
特征模块26使用基于数值的属性的值的对数方案来生成特征值,所述特征值表示基于数值的候选属性的实际值的对数。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的数字事件属性,为所识别的数字事件属性生成文档特征并且基于数字事件属性的对数来向所生成的文档特征分配特征值。
在一个实施例中,一旦多个文档特征被生成,则特征模块26规格化使用一些或所有上述特征生成方案所获得的特征值。在一个实施例中,特征模块26使用术语频率-逆文档频率(TF-IDF)来规格化所分配的特征值。在另一个实施例中,特征模块26使用其它规格化方式来规格化所分配的特征值。
参考图2,一旦特征模块26为阳性和阴性示例生成文档特征,则在步骤56处,分类模块28使用阳性和阴性示例来为每个预定义事件属性类型训练多重二进制分类器。在一个实施例中,每个二进制分类器使用不同分类算法、所生成的文档特征集合和/或训练文档的不同子集。其次,在步骤58处,对于每个所训练的分类器,分类模块28使用若干现有方式之一来训练概率估计模型。例如,在一个实施例中,分类模块28使用保序回归技术来训练概率估计模型。在另一个实施例中,分类模块28使用概率估计方式来训练概率估计模型。
其次,在步骤60处,对于事件集合42中的每个事件,置信度模块60构造置信度模型。在一个实施例中,置信度模块60通过首先为在训练文档集合36中的对应于事件集合42中预定义事件属性的任一非结构化文本部分中所出现的每个单一n元计算n元计数而构造置信度模型,其中n是可配置的。其次,置信度模块60向非结构化文本的每一部分分配置信度评分。所述置信度评分是与非结构化文本的每一部分相关联的n元计数的平均值。其次,置信度模型60使用所述置信度评分来为非结构化文本部分中的每一个计算统计特性。所述统计特性包括但不限于所有置信度评分的平均值、最大值、最小值和标准偏差。置信度模型60于是基于这些统计特性来生成第一文档语料库和第二文档语料库。所述第一语料库包括来自训练文档集合36的、对于预定义事件属性是真阳性的非结构化文本部分。所述第二文档语料库包括来自训练文档集合36的、对于预定义事件属性是假阳性实例的非结构化文本部分。
现在参考图3,公开了用于从非结构化文本文档表示信息的示范性方法。如在图3示例中所示出的,在步骤61处,规格化模块24规格化非结构文档集合44中的至少一个。如之前所描述的,所述非结构化文档集合可以是通过实时新闻馈给所接收的非结构化文本文档D。在一个实施例中,规格化模块24通过识别被包括在非结构化文本文档中的候选属性、将唯一识别符与候选属性相关联、比较候选属性与预定义事件属性集合中的每一个并且基于所述比较而存储所述候选属性、唯一识别符和所述预定义事件属性中至少之一来规格化文档D。所述候选属性可以是在金融领域中所定义的关键词、字母序列、数字和字符。
其次,在步骤62处,规格化模块24识别被包括在非结构化文本文档D中的事件的属性。每个所识别的属性至少类似于被包括于在事件集合42中所定义的预定义事件属性集合中的至少一个事件属性。其次,在步骤64处,特征模块26使用之前所讨论的特征生成方案中一个或多个来从非结构化文本文档生成文档特征。
例如,在一个实施例中,特征模块26可以通过为在一部分非结构化文本文档中所出现的每个单一单词、短语或经规格化的文本生成文档特征和基于所述单词、短语或经规格化的文本中的每个分别在该部分非结构化文本文档中所出现的次数来向所生成的文档特征分配特征值而应用词袋特征生成方案。
特征模块26也可以通过从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文档特征和向所生成的文档特征分配特征值而应用最远距离/最近距离特征生成方案,其中所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
在一个实施例中,例如,特征模块26可以通过识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文当特征、如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后则向所生成的文档特征分配第一特征值而应用之前或之后特征生成方案。
如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则特征模块26也可以向所生成的文档特征分配第二特征值。如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则第三特征值可以由特征模块26分配给所生成的文档特征。
特征模块26可以通过识别被包括在该部分非结构化文本中的限定符文本、为所识别的限定符文本生成文档特征并且向所生成的文档特征分配特征值而应用存在限定符特征生成方案,其中所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
在一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的定界符、为所识别的定界符生成文档特征并且向所生成的文档特征分配特征值而应用存在定界符特征生成方案,其中所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
特征模块26可以通过识别被包括在该部分非结构化文本中的数字事件属性、为所识别的数字事件属性生成文档特征、比较所述数字事件属性与预定义阈值并且基于所述比较向所生成的文档特征分配特征值而应用数值-值-阈特征生成方案。
在一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的每个单一N元、为每个所识别的N元生成文档特征并且基于每个所识别的唯一N元在该部分非结构化文本中出现的频率来向所生成的文档特征分配特征值而应用N元特征生成方案。
特征模块26可以通过识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文档特征并且向所生成的文档特征分配特征值而应用标题词特征生成方案,其中所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
在一个实施例中,例如,特征模块26可以通过从非结构化文本文档的上下文识别依赖时期的属性、为所述依赖时期的属性生成文档特征并且如果所述依赖时期的属性被包括在该部分非结构化文本中则向所生成的文档特征分配第一特征值而应用上下文中时期特征生成方案,其中所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义。
特征模块26可以通过为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征并且基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值而应用最近单匹配标签特征生成方案。
在又一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的数字事件属性、为所识别的数字事件属性生成文档特征并且基于数字事件属性的对数来向所生成的文档特征分配特征值而应用基于数值的属性的值的对数特征生成方案。
其次,如在图3的步骤66中所示出的,分类模块28将多个分类器中至少一个应用于每个所生成的文档特征。之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性。其次,在步骤68处,分类模块28使用之前所训练的概率估计模型之一从由所述至少一个分类器所生成的分类器评分而计算概率值。所计算的概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性。
如在步骤70中所示出的,分类模块28其次使用所计算的概率值来为D中每个所识别的属性计算分类评分。在一个实施例中,分类模块28通过组合分类器的结果来计算分类评分。例如,在一个实施例中,分类模块28使用规格化或概率估计方式来将由分类器所分配的原始评分规格化和/或转变成概率。在一个实施例中,分类模块28在规格化原始评分中使用保序回归,但是在本领域中已知的其它估计方式也可以由分类模块28所利用。这些经规格化的评分于是被组合成作为加权线性组合的单一评分。在一个实施例中,分类模块28经验式地确定加权(weight)。在另一个实施例中,分类模块28通过在每个所识别的属性上应用交叉验证而确定加权。
其次,在步骤72处,分类模块28确定D中所识别的属性是否已经被阳性地识别为预定义事件属性集合中的属性。如果分类模块28确定D中所识别的被阳性地识别,则在步骤74处,分类模块将预定义规则集合40中至少之一应用于所识别的属性。预定义规则集合40中的每一个识别与D中事件邻近的文本部分中的模式。
例如,参考如由分类器所识别的与“1.1p per share”的数值事件属性邻近的文本的以下示例部分:
“A dividend of 1.1p per share totaling £2.1m in respect of the period ended 1 October 2006 was paid in this period”
以下阐明示例预定义规则:
在一个实施例中,示例预定义规则是正则表达式规则,所述正则表达式规则为早先已经被支付或申报的并且因此不被系统考虑为新闻的红利识别数字数值。在一个实施例中,如果数值事件属性(1.1p per share)由单词“was paid, was declared, was proposed or was recommended”跟随,则预定义规则返回真值。
条件规则也可以被包括在预定义规则集合40中。例如,在一个实施例中,在所识别属性的上下文中识别日期并且将所述日期与公布新闻文本的日期或时期相比较。如果所述日期属于之前的时期,于是所述规则返回真,指示所述日期涉及较旧的信息。
其次,在步骤76处,如果分类模块28确定所识别的属性满足一个或多个所应用的规则,则在步骤78处,分类模块28识别对应于所识别的属性的任何附加预定义事件属性。
其次,在步骤80处,置信度模块30使用之前所训练的置信度模型之一来为D中的事件分配置信度评分。一旦置信度评分被分配,则在步骤82处,置信度模块30比较被分配给事件的置信度评分和与所训练的置信度模型相关联的置信度评分。基于所述比较,在步骤84处,提取模块32基于所述分类器评分和所述置信度评分而以结构化格式从非结构化文本文档D表示事件和一个或多个所识别的属性。
在一个实施例中,置信度模块30通过对从在D中邻近的和包括事件的一部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分。置信度模块30于是比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的至少一个事件属性相关联的在先估计平均值。在一个实施例中,置信度模块30确定所计算的置信度评分高于或低于在先估计平均值多少标准偏差。置信度模块30于是基于所述比较向事件分配置信度评分。
在另一个实施例中,如果置信度评分超过阈值,则置信度模块30确定被包括在该部分非结构化文本中的所识别的事件属性是否很可能要由模型M识别,所述模型M在文档的前述第一语料库或第二语料库上被训练。如之前所讨论的,第一文档语料库包括来自训练文档集合36的、之前被确定为对于事件属性是真阳性的非结构化文本和第二文档语料库包括来自训练文档集合36的、对于预定义事件属性是假阳性实例的非结构化文本部分。
在一个实施例中,置信度模块30使用以下公式来计算事件属性的似然性,所述是使用第一语料库或第二语料库而被识别的:
其中是在非结构化文本的第一语料库上所训练的模型M生成n元n的概率并且由以下公式所计算:
其中S()是计算出0出现n元的古德图灵平滑函数(Good-Turing smoothing function)。
如果所计算的事件属性似然性小于与在非结构化文本的第一语料库上所训练的模型M相关联的阈概率值,则置信度模块30使所计算的置信度评分的值变小。否则,置信度模块30维持所计算的置信度评分的值。
在又一个实施例中,如果二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则置信度模块30为事件属性增大所计算的置信度评分,并且如果二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为候选属性减小所计算的置信度评分。
所述系统的各种特征可以以硬件、软件或硬件和软件的组合被实施。例如,所述系统的一些特征可以以一个或多个计算机程序来实施,所述一个或多个计算机程序在可编程计算机上执行。每个程序可以用高级过程或面向对象的编程语言被实施用以与计算机系统或其它机器通信。此外,每个这样的计算机程序可以被存储在存储媒介上,用于配置和操作计算机以执行上述功能,其中所述存储媒介诸如由通用或专用可编程计算机或处理器可读取的只读存储器(ROM)。

Claims (88)

1.一种方法,包括:
识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;
为每个所识别的属性生成文档特征;
将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;
使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;
组合与所识别的属性相关联的多个所计算的概率值,以生成分类评分;和
至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。
2.根据权利要求1所述的方法,此外包括:
将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和
基于所述至少一个规则来确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。
3.根据权利要求1所述的方法,此外包括:
使用至少一个置信度模型来向事件分配置信度评分;
比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和
基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。
4.根据权利要求3所述的方法,其中识别事件的属性包括规格化非结构化文本文档。
5.根据权利要求4所述的方法,其中规格化非结构化文本文档包括:
识别被包括在非结构化文本文档中的候选属性;
将唯一识别符与候选属性相关联;
比较所述候选属性与预定义事件属性中的每一个;和
基于所述比较来存储所述预定义事件属性中至少之一、所述候选属性和所述唯一识别符。
6.根据权利要求5所述的方法,其中所述候选属性是关键词、字母序列、数字和字符之一,所述候选属性是在金融领域中所定义的。
7.根据权利要求3所述的方法,此外包括:
识别邻近和包括事件的一部分非结构化文本,该部分非结构化文本具有用户可配置的文本大小;
通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分;
比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的至少一个事件属性相关联的在先估计平均值;和
基于所述比较向事件分配置信度评分。
8.根据权利要求7所述的方法,此外包括如果置信度评分超过阈值,则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别,非结构化文本的所述第一语料库是被确定为对于事件属性是真阳性的一部分非结构化文本。
9.根据权利要求8所述的方法,其中由在非结构化文本的第一语料库上所训练的模型M识别所述候选属性的似然性                                               通过以下公式计算:
其中是在非结构化文本的第一语料库上所训练的模型M生成n元n的概率并且通过以下公式计算:
其中S()是计算出0出现n元的古德图灵平滑函数。
10.根据权利要求9所述的方法,其中如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值,则使所计算的置信度评分的值变小。
11.根据权利要求9所述的方法,此外包括:
将二进制分类器应用于该部分非结构化文本;
如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则为候选属性增大所计算的置信度评分;和
如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为候选属性减小所计算的置信度评分。
12.根据权利要求1所述的方法,其中概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。
13.根据权利要求1所述的方法,其中为每个所识别的属性生成文档特征包括将多个特征生成方案应用于所识别的属性。
14.根据权利要求13所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
15.根据权利要求14所述的方法,其中应用词袋特征生成方案包括:
为在该部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和
基于所述单词、短语或经规格化的文本中的每一个分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
16.根据权利要求14所述的方法,其中应用最远距离/最近距离特征生成方案包括:
从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
17.根据权利要求14所述的方法,其中应用之前或之后特征生成方案包括:
识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;
如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后,则向所生成的文档特征分配第一特征值;
如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则向所生成的文档特征分配第二特征值;和
如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
18.根据权利要求14所述的方法,其中应用存在限定符特征生成方案包括:
识别被包括在该部分非结构化文本中的限定符文本;
为所识别的限定符文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
19.根据权利要求14所述的方法,其中应用存在定界符特征生成方案包括:
识别被包括在该部分非结构化文本中的定界符;
为所识别的定界符生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
20.根据权利要求14所述的方法,其中应用数值-值-阈特征生成方案包括:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;
比较所述数字事件属性与预定义阈值;和
基于所述比较向所生成的文档特征分配特征值。
21.根据权利要求14所述的方法,其中应用N元特征生成方案包括:
识别被包括在该部分非结构化文本中的每个唯一N元;
为每个所识别的N元生成文档特征;
基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
22.根据权利要求14所述的方法,其中应用标题词特征生成方案包括:
识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
23.根据权利要求14所述的方法,其中应用上下文中时期特征生成方案包括:
从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义;
为所述依赖时期的属性生成文档特征;和
如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
24.根据权利要求14所述的方法,其中应用最近单匹配标签特征生成方案包括:
为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征;
基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值。
25.根据权利要求14所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;和
基于所述数字事件属性的对数向所生成的文档特征分配特征值。
26.根据权利要求1所述的方法,此外包括使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。
27.根据权利要求26所述的方法,包括:
通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档,所述多个标签信息与金融领域相关联并且多个标签信息中的每一个在每个训练文档之内被分配唯一识别符;
从用户界面接收信号,所述信号指示多个标签信息中至少之一对应于预定义事件属性集合之一;和
响应于接收信号,存储所述唯一识别符和对应的预定义事件属性作为对。
28.根据权利要求27所述的方法,此外包括提供用户界面用于显示每个经规格化的文档和多个标签信息。
29.根据权利要求27所述的方法,包括:
比较被包括在所述对中的对应的事件属性与预定义事件属性集合中的每一个;和
基于所述比较,确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。
30.根据权利要求29所述的方法,包括通过将多个特征生成方案应用于与至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征,其中该部分标签信息具有用户可配置的文本大小。
31.根据权利要求30所述的方法,其中为每个所确定的阳性示例和阴性示例生成至少一个文档特征包括将多个特征生成方案分别应用于阳性示例和阴性示例。
32.根据权利要求31所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
33.根据权利要求32所述的方法,其中应用词袋特征生成方案包括:
为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和
基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
34.根据权利要求32所述的方法,其中应用最远距离/最近距离特征生成方案包括:
比较标签信息和与预定义事件属性集合相关联的多个预定义文本;
基于所述比较为所述标签信息生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示在所述标签信息和所述至少一个候选属性之间的空间距离。
35.根据权利要求32所述的方法,其中应用之前或之后特征生成方案包括;
比较标签信息和与预定义事件属性集合相关联的多个预定义文本;
基于所述比较为所述标签信息生成文档特征;
如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之后,则向所生成的文档特征分配第一特征值;
如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之前则向所生成的文档特征分配第二特征值;和
如果标签信息没有被包括在与所述预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
36.根据权利要求32所述的方法,其中应用存在限定符特征生成方案包括:
识别被包括在该部分非结构化文本中的限定符文本;
为所识别的限定符文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
37.根据权利要求32所述的方法,其中应用存在定界符特征生成方案包括:
识别被包括在该部分非结构化文本中的定界符;
为所识别的定界符生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
38.根据权利要求32所述的方法,其中应用数值-值-阈特征生成方案包括:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;
比较数字事件属性与预定义阈值;和
基于所述比较向所生成的文档特征分配特征值。
39.根据权利要求32所述的方法,其中应用N元特征生成方案包括:
识别被包括在该部分非结构化文本中的每个唯一N元;
为每个所识别的N元生成文档特征;
基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
40.根据权利要求32所述的方法,其中应用标题词特征生成方案包括:
为标签信息生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。
41.根据权利要求32所述的方法,其中应用上下文中时期特征生成方案包括:
从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一所定义;
为所述依赖时期的属性生成文档特征;和
如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
42.根据权利要求32所述的方法,其中应用最近单匹配标签特征生成方案包括:
为在该部分非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征;和
基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配第一特征值。
43.根据权利要求32所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;和
基于所述数字事件属性的对数来向所生成的文档特征分配特征值。
44.一种系统,包括:
包括处理器和存储器的服务器,所述存储器存储指令,所述指令响应于接收用于访问服务的第一请求,使处理器:
识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;
为每个所识别的属性生成文档特征;
将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;
使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;
组合与所识别的属性相关联的多个所计算的概率值以生成分类评分;和
至少部分基于所述分类评分,从非结构化文本文档将事件和所识别的属性提取成结构化格式。
45.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和
基于所述至少一个规则,确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。
46.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
使用至少一个置信度模型向事件分配置信度评分;
比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和
基于所述比较,以结构化格式从非结构化文本文档提取事件和所识别的属性。
47.根据权利要求46所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器规格化非结构化文本文档。
48.根据权利要求47所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在非结构化文本文档中的候选属性;
关联唯一识别符与所述候选属性;
比较所述候选属性与预定义事件属性集合中的每一个;和
基于所述比较,存储预定义事件属性中至少之一、所述候选属性、和所述唯一识别符。
49.根据权利要求48所述的系统,其中所述候选属性是关键词、字母序列、数字和字符之一,所述候选属性是在金融领域中所定义的。
50.根据权利要求46所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别邻近和包括事件的一部分非结构化文本,其中该部分非结构化文本具有用户可配置的文本大小;
通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分;
比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的所述至少一个事件属性相关联的在先估计平均值;和
基于所述比较,向事件分配置信度评分。
51.根据权利要求50所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:如果所述置信度评分超过阈值,则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别,其中非结构化文本的第一语料库是被确定为对于所述事件属性是真阳性的一部分非结构化文本。
52.根据权利要求51所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器通过以下公式计算所述候选属性由在非结构化文本的第一语料库上所训练的模型M识别的似然性
其中是在非结构化文本的第一语料库上所训练的模型M生成n元n的概率并且由以下公式计算:
其中S()是计算出0出现n元的古德图灵平滑函数。
53.根据权利要求52所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值,则使所计算的置信度评分的值变小,使所计算的置信度评分的值变小。
54.根据权利要求52所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
将二进制分类器应用于该部分非结构化文本;
如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则为所述候选属性增大所计算的置信度评分;和
如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为所述候选属性减小所计算的置信度评分。
55.根据权利要求44所述的系统,其中所述概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。
56.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器将多个特征生成方案应用于所识别的属性来为每个所识别的属性生成特征,包括将多个特征生成方案应用于所识别的属性。
57.根据权利要求56所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
58.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
为在该部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和
基于所述单词、短语或经规格化的文本中的每一个分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
59.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
60.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;
如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后,则向所生成的文档特征分配第一特征值;
如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则向所生成的文档特征分配第二特征值;和
如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
61.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的限定符文本;
为所识别的限定符文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
62.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的定界符;
为所识别的定界符生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
63.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;
比较所述数字事件属性与预定义阈值;和
基于所述比较向所生成的文档特征分配特征值。
64.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的每个唯一N元;
为每个所识别的N元生成文档特征;
基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率,向所生成的文档特征分配特征值。
65.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别与所识别的属性之一邻近的文本;
为所识别的邻近文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
66.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义;
为所述依赖时期的属性生成文档特征;和
如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
67.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征;
向所生成的文档特征分配第一特征值。
68.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;和
基于所述数字事件属性的对数,向所生成的文档特征分配特征值。
69.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。
70.根据权利要求69所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档,所述多个标签信息与金融领域相关联并且所述多个标签信息中的每一个在每个训练文档内被分配唯一识别符;和
响应于从用户界面接收信号,存储所述唯一识别符和所述对应预定义事件属性作为对,所述信号指示所述多个标签信息中至少之一对应于预定义事件属性集合之一。
71.根据权利要求71所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器提供用户界面,用于显示每个经规格化的文档和多个标签信息。
72.根据权利要求70所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
比较被包括在所述对中的对应事件属性与预定义事件属性集合中的每一个;和
基于所述比较,确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。
73.根据权利要求72所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器通过将多个特征生成方案应用于与所述至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征,其中该部分标签信息具有用户可配置的文本大小。
74.根据权利要求73所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器将多个特征生成方案应用于所述阳性示例和所述阴性示例来为每个所确定的阳性示例和阴性示例生成所述至少一个特征。
75.根据权利要求74所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器至少从以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
76.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和
基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数,向所生成的文档特征分配特征值。
77.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
比较标签信息和与预定义事件属性集合相关联的多个预定义文本;
基于所述比较,为标签信息生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示在标签信息和所述至少一个候选属性之间的空间距离。
78.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
比较标签信息和与预定义事件属性集合相关联的多个预定义文本;
基于所述比较,为标签信息生成文档特征;
如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之后,则向所生成的文档特征分配第一特征值;
如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之前,则向所生成的文档特征分配第二特征值;
如果所述标签信息没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
79.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
识别被包括在该部分非结构化文本中的限定符文本;
为所识别的限定符文本生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
80.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:
识别被包括在该部分非结构化文本中的定界符;
为所识别的定界符生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
81.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;
比较所述数字事件属性与预定义阈值;和
基于所述比较,向所生成的文档特征分配特征值。
82.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
识别被包括在该部分非结构化文本中的每个唯一N元;
为每个所识别的N元生成文档特征;
基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率,向所生成的文档特征分配特征值。
83.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
为标签信息生成文档特征;和
向所生成的文档特征分配特征值,所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。
84.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一定义;
为所述依赖时期的属性生成文档特征;和
如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
85.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
为在该部分非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征;和
向所生成的文档特征分配第一特征值。
86.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:
识别被包括在该部分非结构化文本中的数字事件属性;
为所识别的数字事件属性生成文档特征;和
基于所述数字事件属性的对数,向所生成的文档特征分配特征值。
87.一种系统,包括
用于识别被包括在非结构化文本文档中的事件的属性的识别装置,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;
用于为每个所识别的属性生成文档特征的特征生成装置;
用于将多个分类器中至少之一应用于每个所生成的特征的应用装置,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;
用于使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值的计算装置,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;
用于组合多个所计算的与所识别的属性相关联的概率值以生成分类评分的组合装置;和
用于至少部分基于所述分类评分从非结构化文本文档将事件和所识别的属性表示成结构化格式的表示装置。
88.一种方法,包括:
(1)访问非结构化文本文档以识别事件和与所述事件相关联的属性集合,所述属性集合与预定义事件属性集合有关;
(2)生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素;
(3)对于在所述文档特征集合中的第一文档特征:
a. 生成第一分类器评分,所述第一分类器评分是利用之前已经使用预定义事件属性集合训练的分类器被生成的;和
b. 基于所述第一分类器评分,使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性;
(4)对于在所述文档特征集合中的第二文档特征:
a. 生成第二分类器评分,所述第二分类器评分是利用所述分类器被生成的;和
b. 基于所述第二分类器评分,使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性;
(5)使用第一概率值和第二概率值来生成分类评分;
(6)基于所述分类评分,从非结构化文本文档,将事件和属性集合表示成结构化格式。
CN201280032515.9A 2011-04-29 2012-04-25 从文档表示信息 Active CN104081385B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/097619 2011-04-29
US13/097,619 US20120278336A1 (en) 2011-04-29 2011-04-29 Representing information from documents
PCT/US2012/034871 WO2012148950A2 (en) 2011-04-29 2012-04-25 Representing information from documents

Publications (2)

Publication Number Publication Date
CN104081385A true CN104081385A (zh) 2014-10-01
CN104081385B CN104081385B (zh) 2017-01-18

Family

ID=46086050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280032515.9A Active CN104081385B (zh) 2011-04-29 2012-04-25 从文档表示信息

Country Status (5)

Country Link
US (1) US20120278336A1 (zh)
EP (1) EP2705442B1 (zh)
CN (1) CN104081385B (zh)
ES (1) ES2784180T3 (zh)
WO (1) WO2012148950A2 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN106095796A (zh) * 2016-05-30 2016-11-09 中国邮政储蓄银行股份有限公司 分布式数据存储方法、装置及系统
CN106503930A (zh) * 2016-11-29 2017-03-15 北京优易惠技术有限公司 一种文件审核方法及装置
CN107341716A (zh) * 2017-07-11 2017-11-10 北京奇艺世纪科技有限公司 一种恶意订单识别的方法、装置及电子设备
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN112163093A (zh) * 2020-10-13 2021-01-01 杭州电子科技大学 基于特征值的电力居民app多题型问卷得分分类方法
CN112805715A (zh) * 2019-07-05 2021-05-14 谷歌有限责任公司 识别实体属性关系
CN115037739A (zh) * 2022-06-13 2022-09-09 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US8983170B2 (en) * 2008-01-18 2015-03-17 Mitek Systems, Inc. Systems and methods for developing and verifying image processing standards for mobile deposit
US9842331B2 (en) 2008-01-18 2017-12-12 Mitek Systems, Inc. Systems and methods for mobile image capture and processing of checks
US10685223B2 (en) 2008-01-18 2020-06-16 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US9292737B2 (en) 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US8463790B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US9501455B2 (en) * 2011-06-30 2016-11-22 The Boeing Company Systems and methods for processing data
US8521769B2 (en) 2011-07-25 2013-08-27 The Boeing Company Locating ambiguities in data
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8719279B2 (en) * 2012-02-24 2014-05-06 Strategic Communication Advisors, LLC. System and method for assessing and ranking newsworthiness
US10061807B2 (en) 2012-05-18 2018-08-28 Splunk Inc. Collection query driven generation of inverted index for raw machine data
US8682925B1 (en) 2013-01-31 2014-03-25 Splunk Inc. Distributed high performance analytics store
US8516008B1 (en) 2012-05-18 2013-08-20 Splunk Inc. Flexible schema column store
US20150019537A1 (en) 2012-09-07 2015-01-15 Splunk Inc. Generating Reports from Unstructured Data
US8788525B2 (en) 2012-09-07 2014-07-22 Splunk Inc. Data model for machine data for semantic search
US9141686B2 (en) * 2012-11-08 2015-09-22 Bank Of America Corporation Risk analysis using unstructured data
US9235812B2 (en) * 2012-12-04 2016-01-12 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
US9122679B1 (en) 2012-12-28 2015-09-01 Symantec Corporation Method and system for information retrieval effectiveness estimation in e-discovery
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US9536139B2 (en) 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
US10402428B2 (en) * 2013-04-29 2019-09-03 Moogsoft Inc. Event clustering system
US11144994B1 (en) 2014-08-18 2021-10-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
US10474702B1 (en) 2014-08-18 2019-11-12 Street Diligence, Inc. Computer-implemented apparatus and method for providing information concerning a financial instrument
CN104750801A (zh) * 2015-03-24 2015-07-01 华迪计算机集团有限公司 一种结构化文档的生成方法和系统
US10229150B2 (en) 2015-04-23 2019-03-12 Splunk Inc. Systems and methods for concurrent summarization of indexed data
US10176266B2 (en) * 2015-12-07 2019-01-08 Ephesoft Inc. Analytic systems, methods, and computer-readable media for structured, semi-structured, and unstructured documents
CN107180022A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 对象分类方法及装置
US10200397B2 (en) 2016-06-28 2019-02-05 Microsoft Technology Licensing, Llc Robust matching for identity screening
US10311092B2 (en) * 2016-06-28 2019-06-04 Microsoft Technology Licensing, Llc Leveraging corporal data for data parsing and predicting
US11379530B2 (en) 2017-01-31 2022-07-05 Splunk Inc. Leveraging references values in inverted indexes to retrieve associated event records comprising raw machine data
US10474674B2 (en) 2017-01-31 2019-11-12 Splunk Inc. Using an inverted index in a pipelined search query to determine a set of event data that is further limited by filtering and/or processing of subsequent query pipestages
US10339423B1 (en) * 2017-06-13 2019-07-02 Symantec Corporation Systems and methods for generating training documents used by classification algorithms
US10957431B2 (en) 2018-04-20 2021-03-23 International Business Machines Corporation Human resource selection based on readability of unstructured text within an individual case safety report (ICSR) and confidence of the ICSR
EP3791352A4 (en) * 2018-05-07 2022-01-26 Course5 Intelligence Private Limited METHOD AND SYSTEM FOR GENERATING SURVEY RELATED DATA
US11055327B2 (en) * 2018-07-01 2021-07-06 Quadient Technologies France Unstructured data parsing for structured information
US20210027167A1 (en) * 2019-07-26 2021-01-28 Cisco Technology, Inc. Model structure extraction for analyzing unstructured text data
CN110674303B (zh) * 2019-09-30 2022-03-01 北京明略软件系统有限公司 事件语句处理方法、装置、计算机设备和可读存储介质
CA3172707A1 (en) 2020-03-23 2021-09-30 Adam Tomkins Cross-context natural language model generation
US20220237480A1 (en) * 2021-01-25 2022-07-28 Salesforce.Com, Inc. Event prediction based on multimodal learning
US20220237063A1 (en) * 2021-01-27 2022-07-28 Microsoft Technology Licensing, Llc Root cause pattern recognition based model training
US20220300760A1 (en) * 2021-03-18 2022-09-22 Sap Se Machine learning-based recommendation system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024769A1 (en) * 2002-08-02 2004-02-05 Forman George H. System and method for inducing a top-down hierarchical categorizer
US7107254B1 (en) * 2001-05-07 2006-09-12 Microsoft Corporation Probablistic models and methods for combining multiple content classifiers

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
US20030130993A1 (en) * 2001-08-08 2003-07-10 Quiver, Inc. Document categorization engine
US7870279B2 (en) * 2002-12-09 2011-01-11 Hrl Laboratories, Llc Method and apparatus for scanning, personalizing, and casting multimedia data streams via a communication network and television
US20080294518A1 (en) * 2007-05-22 2008-11-27 Weiss Benjamin R Method and apparatus for tracking parameters associated with a redemption certificate
US8195588B2 (en) * 2008-04-03 2012-06-05 At&T Intellectual Property I, L.P. System and method for training a critical e-mail classifier using a plurality of base classifiers and N-grams
TWI498752B (zh) * 2009-09-11 2015-09-01 Hewlett Packard Development Co 使用簡易貝氏機率模型從未經結構化之資料中擷取資訊並將資訊映射至經結構化之架構描述

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107254B1 (en) * 2001-05-07 2006-09-12 Microsoft Corporation Probablistic models and methods for combining multiple content classifiers
US20040024769A1 (en) * 2002-08-02 2004-02-05 Forman George H. System and method for inducing a top-down hierarchical categorizer

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MARTINA NAUGHTON ET AL.: "Investigating Statistical Techniques for Sentence-Level Event Classification", 《PROCEEDING OF THE 22ND INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
PAUL S. JACOBS ET AL.: "A friendly merger of conceptual expectations and linguistic analysis in a text processing system", 《PROCEEDINGS OF THE CONFERENCE ON ARTIFICIAL INTELLIGENCE APPLICATIONS》 *
PEGGY M. ANDERSEN ET AL.: "Automatic extraction of facts from press releases to generate news stories", 《ANLC"92 PROCEEDINGS OF THE THIRD CONFERENCE ON APPLIED NATURAL LANGUAGE PROCESSING》 *
YE-YI WANG ET AL.: "Combination of statistical and rule-based approaches for spoken language understanding", 《PROCESSINGS OF THE INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061762B2 (en) 2015-11-24 2018-08-28 Xiaomi Inc. Method and device for identifying information, and computer-readable storage medium
CN105488025B (zh) * 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN106095796A (zh) * 2016-05-30 2016-11-09 中国邮政储蓄银行股份有限公司 分布式数据存储方法、装置及系统
CN106503930B (zh) * 2016-11-29 2019-11-08 北京优易惠技术有限公司 一种文件审核方法及装置
CN106503930A (zh) * 2016-11-29 2017-03-15 北京优易惠技术有限公司 一种文件审核方法及装置
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法
CN107368534B (zh) * 2017-06-21 2020-06-12 南京邮电大学 一种预测社交网络用户属性的方法
CN107341716A (zh) * 2017-07-11 2017-11-10 北京奇艺世纪科技有限公司 一种恶意订单识别的方法、装置及电子设备
CN107341716B (zh) * 2017-07-11 2020-12-25 北京奇艺世纪科技有限公司 一种恶意订单识别的方法、装置及电子设备
CN108491475B (zh) * 2018-03-08 2020-03-31 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN112805715A (zh) * 2019-07-05 2021-05-14 谷歌有限责任公司 识别实体属性关系
CN112163093A (zh) * 2020-10-13 2021-01-01 杭州电子科技大学 基于特征值的电力居民app多题型问卷得分分类方法
CN115037739A (zh) * 2022-06-13 2022-09-09 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质
CN115037739B (zh) * 2022-06-13 2024-02-23 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP2705442B1 (en) 2019-12-25
WO2012148950A3 (en) 2012-12-20
CN104081385B (zh) 2017-01-18
ES2784180T3 (es) 2020-09-22
WO2012148950A2 (en) 2012-11-01
EP2705442A2 (en) 2014-03-12
US20120278336A1 (en) 2012-11-01

Similar Documents

Publication Publication Date Title
CN104081385B (zh) 从文档表示信息
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11386096B2 (en) Entity fingerprints
Fisher et al. Natural language processing in accounting, auditing and finance: A synthesis of the literature with a roadmap for future research
US20190394238A1 (en) IT compliance and request for proposal (RFP) management
US10255354B2 (en) Detecting and combining synonymous topics
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
US11687218B1 (en) User interface for use with a search engine for searching financial related documents
US20160085742A1 (en) Automated collective term and phrase index
US20080162455A1 (en) Determination of document similarity
EP3178013A2 (en) Knowledge automation system
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
Biswas et al. Scope of sentiment analysis on news articles regarding stock market and GDP in struggling economic condition
CN114303140A (zh) 与产品和服务相关的知识产权数据分析
Li et al. Cracking tabular presentation diversity for automatic cross-checking over numerical facts
Wei et al. Online education recommendation model based on user behavior data analysis
US20200097605A1 (en) Machine learning techniques for automatic validation of events
Qumsiyeh et al. Enhancing web search by using query-based clusters and multi-document summaries
CN116583863A (zh) 用于使用自然语言搜索生成广告弹性模型的系统和方法
Beheshti et al. Data curation apis
Lv et al. Detecting user occupations on microblogging platforms: an experimental study
Patil et al. A Review on Sentiment Analysis Approaches
Wang Generating An Overview Report of Multilevel Structure over A Large Corpus of Documents
US20220358150A1 (en) Natural language processing and machine-learning for event impact analysis
Zhang et al. Research on Automatic Identification of Rumors in Stock Forum Based on Machine Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: Thomsen Reuters global resources unlimited company

Address before: Swiss Swiss

Patentee before: Thomson Reuters Globle Resources

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190506

Address after: London City

Patentee after: Finance and Risk Organizations Limited

Address before: Swiss Swiss

Patentee before: Thomsen Reuters global resources unlimited company

TR01 Transfer of patent right