CN104881399B - 基于概率软逻辑psl的事件识别方法和系统 - Google Patents

基于概率软逻辑psl的事件识别方法和系统 Download PDF

Info

Publication number
CN104881399B
CN104881399B CN201510250005.4A CN201510250005A CN104881399B CN 104881399 B CN104881399 B CN 104881399B CN 201510250005 A CN201510250005 A CN 201510250005A CN 104881399 B CN104881399 B CN 104881399B
Authority
CN
China
Prior art keywords
event
mrow
msub
conditional probability
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510250005.4A
Other languages
English (en)
Other versions
CN104881399A (zh
Inventor
刘康
赵军
徐立恒
刘树林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510250005.4A priority Critical patent/CN104881399B/zh
Publication of CN104881399A publication Critical patent/CN104881399A/zh
Application granted granted Critical
Publication of CN104881399B publication Critical patent/CN104881399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于概率软逻辑PSL的事件识别方法和系统,所述方法包括:分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。本发明所述方法能够提高事件识别的准确性。

Description

基于概率软逻辑PSL的事件识别方法和系统
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于概率软逻辑PSL的事件识别方法和系统。
背景技术
随着互联网的蓬勃发展和网络通讯终端的日益普及,人们每天都会接触涉及各个领域的海量信息,例如军事、体育、娱乐等领域的新闻。如何从这些无序、杂乱、非结构的海量信息中发现感兴趣的事件已经成为亟需解决的问题,事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。
事件识别是事件抽取的子任务,在介绍事件识别之前,先对事件抽取做简单的介绍。在事件抽取中,一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出来。例如,对于文本“He died in hospital”,一个理想的事件抽取结果如表1所示。
表1
事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类型是Die。
ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。该评测预定义了8大类、33小类的事件,每个类型的事件都有若干标注的实例。目前的主流技术是将事件识别转化为词分类的问题,然后利用句法分析器等工具抽取候选词附近的信息构建特征向量,最后利用基于特征的分类器进行分类。该方法有两个假设:a.事件的识别只需要考虑候选词所在的句子信息。b.事件与事件之间相互独立,识别过程中不考虑事件与事件之间的影响。图1展示了该方法的基本流程,分为训练和测试两个阶段。训练阶段,对标注数据中的每个事件触发词,利用自然语言处理工具提取潜在有用的信息(词形,词性等),为该实例构建特征向量;将该特征向量和其事件类别对应起来,作为一个标注数据实例。最后利用所有的标注数据实例训练分类模型,得到可用的分类器。测试阶段,该方法将测试文本中的每个词视为一个候选事件触发词,针对每个触发词提取特征构建特征向量,最后用训练好的分类器进行分类,分类器给出的类标就是识别结果。但是,由于分类器的限制,传统技术几乎只利用了候选词附近的局部信息,忽略了篇章级和语料级的全局信息,而这类信息对事件识别来说至关重要。
发明内容
本发明提供一种概率软逻辑PSL(Probabilistic Soft Logic)的事件识别方法和系统,以提高事件识别的准确性。
本发明的第一个方面是提供一种基于概率软逻辑PSL的事件识别方法,包括:
分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
本发明的第二个方面是提供一种基于概率软逻辑PSL的事件识别系统,包括:
先验概率模块,配置为:分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;
PSL识别模块,用于在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型,并利用所构成的事件识别模块对待识别文档进行识别。
本发明的有益效果为:
本发明基于概率软逻辑PSL的事件识别方法通过采用PSL模型上进行有监督训练,实现了准确可靠事件识别;此外,在对训练词库中候选词进行聚类时,预先获取候选词的高维信息作为先验信息,使对候选词的聚类更加准确,从而提高了事件识别模型整体的识别精度。
附图说明
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图;
图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图;
图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图;
图4为本发明基于概率软逻辑PSL的事件识别系统实施例一的结构框图。
具体实施方式
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图,图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图,如图1和图2所示,本发明基于概率软逻辑PSL的事件识别方法包括:
S101、分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;
优选的,所述分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率包括:
S1011、生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率,获取同一文档中出现两个不同候选的条件概率;
S1012、计算候选与事件的条件概率;优选的,所述计算候选与事件的条件概率包括:
对词库中若干候选组成的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率;这一过程由一个传统的分类模型组成的模块实现,利用上一步抽取的特征向量,使用logistic回归模型,为触发词类型的候选进行预分类,已有方法在使用分类模型时,通常控制模型输出一个事件也即事件类别(为描述方便,简称事件)作为分类结果,本发明的不同之处在于,这一步骤不输出事件,而是给出候选在所有事件上的概率分布;
S1013、计算在同一语句中出现两个不同事件的条件概率;该模块在训练数据集上统计语料级和篇章级的全局信息,构建一个全局信息知识库,为后续PSL模块的推理提供支撑;该模块主要统计两类全局信息:由于训练数据的真实分布未知,理论上,无法获得真实的条件概率分布,只能用在词库训练数据集上的统计量估计它们,分别从语句级(句子级)和文档级(篇章级)的共现来统计这两类条件概率;
优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一语句中出现两个不同事件的条件概率psen(t1,t2):
其中,psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t1,t2)表示事件t1和事件t2出现在同一语句中的次数,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;T表示所有事件类型的集合;
S1014、计算在同一文档中出现两个不同事件的条件概率;优选的,所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中,pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的次数,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;T表示所有事件类型的集合;
S1015、计算在同一文档中出现事件与主题的条件概率;优选的,所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中,p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t,p)表示在同一文档中出现事件t与主题p的次数,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;T表示所有事件类型的集合;文档中描述的事件与该文档的主题密切相关,如一篇娱乐新闻中可能描述Marriage、Born事件,不太可能描述Attack、Die事件;首先利用LDA(Latent Dirichlet Allocation)算法发现文档的主题,然后计算主题和事件类型之间共现的条件概率来捕获这一信息;
S1016、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法;
其中,S1011~S1016为平行步骤,不区分先后顺序;
S102、在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的推理公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
优选的,所述在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型包括:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中,topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量,如表2所示:
谓词 作用
candEvt(c,t) 用于表示分类模块产生的结果中,候选c在类别t上的概率
eventType(c,t) 目标谓词,表示候选c的类别是t
topic(c,p) 标识候选c所在的文档的主题为p
topicEvt(p,t) 用于表示p(t|p)
sameSen(c1,c2) 标识候选c1和c2出现在同一个句子里
senEvtEvt(t1,t2) 用于表示psen(t1|t2)
sameDoc(c1,c2) 标识候选c1和c2出现在同一篇文档中
docEvtEvt(t1,t2) 用于表示pdoc(t1|t2)
表2
公式(5)表示:主题和事件共现的先验概率越大,越可能是正确结果;若候选在共同的句子出现,且已知c1的类型为t1,那么t1和t2在语句级共现的先验概率越大,c2对应的事件越可能是t2;若候选在共同的文档出现,且已知c1对应的的事件为t1,那么t1和t2在文档级共现的先验概率越大,c2的对应的事件越可能是t2
这里需要说明的是,通过所述PSL模型推理之后,不会直接得到最终的结果,因为模型的输出是变量eventType,它会给出候选c在所有事件上的条件概率,所述PSL模型推理完成之后,我们收集变量eventType的所有实例,对其降序排序,选择值最大的若干结果作为最终结果。
以下举例说明应用本发明基于概率软逻辑PSL的事件识别方法进行训练得到的事件识别模型的检测性能。
测试语料使用ACE2005数据集作为训练和测试语料;该语料共包含599篇标注文档,选择530篇作为训练数据集,39篇作为测试数据集,另外的30篇作为开发数据集。
现有方法和本发明所述方法的测试结果对比如表3所示:
表3
表中第一部分(前三行)是已有方法的结果,第二部分(后两行)是本方法的结果。其中,Baseline(ours)利用了传统方法构建分类模型,唯一的区别是,加入了在步骤1中挖掘的高维信息作为特征;Combined PSL是本方法的完整实现;从实验结果可以看到,基于概率软逻辑的事件识别及分类方法在该任务上的表现超过了已有方法,这个方法被证明是有效的。
本发明基于概率软逻辑PSL的事件识别方法实施例一通过采用PSL模型上进行有监督训练,实现了准确可靠事件识别;此外,在对训练词库中候选词进行聚类时,预先获取候选词的高维信息作为先验信息,使对候选词的聚类更加准确,从而提高了事件识别模型整体的识别精度。
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图,图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图;如图1和图3所示,本发明基于概率软逻辑PSL的事件识别方法实施例二中S2012~S2017与实施例一中S1011~1016对应相同,S202与S102对应相同,不同之处在于,还包括S2011,也即本发明基于概率软逻辑PSL的事件识别方法实施例二中S201包括:
S2011、获取候选的高维的类别信息;这里利用聚类技术,在全部词库数据集上挖掘高维信息,后续的特征提取步骤将使用这些高维信息构建特征,用于分类器的训练和测试,主要挖掘两类高维信息:细粒度实体类型和候选触发词类型;
优选的,所述获取候选的高维的类别信息包括:
S20111、挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识;
传统的命名实体识别(Named Entity Recognition,NER)工具只能识别粗粒度的实体类型,例如机构名、人名、地名等,本发明在传统命名实体识别工具识别结果的基础上,进行细粒度的实体类型挖掘。细粒度实体类型指的是,将实体划分为更细致的类型;例如,对于人名这类实体,可以继续将其细分为政治家、艺术家、科学家等;基本思想是,先用命名实体识别工具识别出语料中所有的实体及其类型,然后对识别出的实体按照恰当的策略进行聚类,使得聚类结果中的每个簇能反应某个细粒度实体类型的信息;本发明的聚类策略是,首先针对数据集中的每个实体,在WordNet中查找其全部的同义词、相关词及上位词,利用这些词构造该实体的描述文本;其中,上位词需要递归地获取,为了限制语义漂移的幅度,设置了递归次数上限,本发明中最多递归四次;
S20112、对触发词类型的候选执行聚类并确定候选的类型标识;
挖掘候选触发词的类别信息时,挖掘的方法和实体细粒度类型挖掘类似,先利用WordNet产生候选词的描述文本,然后通过文本聚类来解决这一问题,产生文本描述的策略和上述方法相同,利用同义词、相关词和上位词进行描述,具体可以使用类型标识对其进行表述;
S2012、生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率,获取同一文档中出现两个不同候选的条件概率;
对于给定的一篇文档,特征提取模块首先将其按照句子进行切分,然后逐句产生候选并提取特征,本发明使用斯坦福大学的Stanford CoreNLP工具对句子进行词法和句法分析;和主流方法相同,本发明将句子中的每个词当作一个触发词候选,分别为这些候选提取特征,构建特征向量;这一过程中不仅提取词法、句法特征,还利用上一步骤中挖掘的高维信息,构建一组高维特征;
S2013、计算候选与事件的条件概率;优选的,所述计算候选与事件的条件概率包括:
对词库中若干候选组成的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率;
S2014、计算在同一语句中出现两个不同事件的条件概率;
优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一语句中出现两个不同事件的条件概率psen(t1,t2):
其中,psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t1,t2)表示事件t1和事件t2出现在同一语句中的次数,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;T表示所有事件类型的集合;
S2015、计算在同一文档中出现两个不同事件的条件概率;优选的,所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中,pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的次数,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;T表示所有事件类型的集合;
S2016、计算在同一文档中出现事件与主题的条件概率;优选的,所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中,p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t,p)表示在同一文档中出现事件t与主题p的次数,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;T表示所有事件类型的集合;
S2017、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法。
本发明基于概率软逻辑PSL的事件识别方法通过加入丰富的高维信息作为特征,使得聚类获得的事件与类型的条件概率这一先验信息更加准确,增加了使用本发明所述方法训练得到的事件识别模型的准确性此外,还可以引入不同维度的全局信息作为特征。
本发明基于概率软逻辑PSL的事件识别方法实施例三中S301的子步骤S3011~S3017与实施例二中S201的子步骤S2011~S2017对应相同,不同之处在于,S302包括:
S3021、在PSL模型中为不同条件概率分别设定对应的变量;
S3022、根据公式(4)确定条件概率的平滑函数值predicate(key):
predicate(key)=min(log(a+p(key)-1,a)/b,1.0) (4)
再用平滑函数值结果对所述不同概率对应的变量进行初始赋值;
其中,key表示所述条件概率对应的变量中的二维元组,a为整数且a>1,b为实数且b>0;p(key)表示由公式(1)-(3)中任一公式计算得出的条件概率,即psen(t1,t2)或pdoc(t1,t2)或p(t,p);
S3023、设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中,topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量;需要说明的是,对变量进行初始赋值时,由于统计出的条件概率的方差较大,而PSL模型对变量的值极其敏感,不能直接用统计出的条件概率对相应的变量进行初始化,否则推理结会变差,为了解决这一问题,我们设计所述平滑函数来平滑条件概率之间的差异,a与b为经验值。
图4本发明基于概率软逻辑PSL的事件识别系统实施例一的流程图,如图4所示,本发明基于概率软逻辑PSL的事件识别系统包括:
先验概率模块41,配置为:分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;;
PSL识别模块42,用于在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的推理公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
优选的,所述先验概率模块具体用于:
生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率,获取同一文档中出现两个不同候选的条件概率;
计算候选与事件的条件概率;优选的,所述先验概率模块具体用于:对若干候选的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;优选的,所述先验概率模块具体用于:根据公式(1)计算在同一语句中出现两个不同事件的条件概率psen(t1,t2):
其中,psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t1,t2)表示事件t1和事件t2出现在同一语句中的次数,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;T表示所有事件类型的集合;
计算在同一文档中出现两个不同事件的条件概率;优选的,所述先验概率模块具体用于:根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中,pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的次数,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;T表示所有事件类型的集合;
计算在同一文档中出现事件与主题的条件概率;优选的,所述先验概率模块具体用于:根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中,p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t,p)表示在同一文档中出现事件t与主题p的次数,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;T表示所有事件类型的集合。
根据主题自动挖掘模型,获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法;
优选的,所述PSL识别模块具体用于:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中,topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于概率软逻辑PSL的事件识别方法,其特征在于,包括:
分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;
在PSL模型中为不同条件概率分别设定对应的变量,设计PSL模型的推理公式,并根据该公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
利用所述事件识别模型对待识别文档进行事件识别;
其中,
所述“分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率”包括:
获取同一语句中出现两个不同候选的条件概率;
获取同一文档中出现两个不同候选的条件概率;
计算候选与事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;
计算在同一文档中出现两个不同事件的条件概率;
计算在同一文档中出现事件与主题的条件概率;
获取候选与主题出现在同一文档的条件概率;
所述“在PSL模型中为不同条件概率分别设定对应的变量,设计PSL模型的推理公式,并根据该公式进行迭代”,具体为:
用topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量;
用topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量;
用candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量;
用eventType(c,t)表示至少迭代一次后的候选c与事件t的条件概率对应的变量;
用sameSen(c1,c2)表示候选c1和候选c2同时出现在同一语句中的条件概率对应的变量;
用senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量;
用candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量;
用eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量;
用eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;
用sameDoc(c1,c2)表示候选c1和候选c2出现在同一文档中的条件概率对应的变量;
用docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量;
设计PSL模型的推理公式:
根据所设计的PSL模型的推理公式进行迭代。
2.根据权利要求1所述的基于概率软逻辑PSL的事件识别方法,其特征在于,所述计算候选与事件的条件概率包括:
对若干候选的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率。
3.根据权利要求2所述的基于概率软逻辑PSL的事件识别方法,其特征在于,所述计算在同一语句中出现两个不同事件的条件概率,包括根据下式计算在同一语句中出现两个不同事件的条件概率psen(t1,t2):
<mrow> <msub> <mi>p</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <msub> <mi>num</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
所述计算在同一文档中出现两个不同事件的条件概率,包括根据下式计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
<mrow> <msub> <mi>p</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
所述计算在同一文档中出现事件与主题的条件概率,包括根据下式计算在同一文档中出现事件与主题的条件概率p(t,p):
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,psen(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率,numsen(t1,t2)表示事件t1和事件t2出现在同一语句中的次数,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的条件概率,numdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的次数,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;p(t,p)表示在同一文档中出现事件t与主题p的条件概率,numdoc(t,p)表示在同一文档中出现事件t与主题p的次数,numdoc(t′,p)表示在同一文档中出现事件t′与主题p的次数;T表示所有事件类型的集合。
4.根据权利要求3所述的基于概率软逻辑PSL的事件识别方法,其特征在于,在所述对若干候选的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率之前,还包括:
获取候选的高维的类别信息。
5.根据权利要求4所述的基于概率软逻辑PSL的事件识别方法,其特征在于,所述获取候选的高维的类别信息包括:
挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识;
或对触发词类型的候选执行聚类并确定候选的类型标识。
6.根据权利要求5所述的基于概率软逻辑PSL的事件识别方法,其特征在于,在所述在PSL模型中为不同条件概率分别设定对应的变量之后,和在所述根据PSL模型的变量公式进行迭代之前,还包括:
根据下式确定条件概率的平滑函数值predicate(key):
predicate(key)=min(log(a+p(key)-1,a)/b,1.0)
再用平滑函数值结果对所述不同条件概率对应的变量进行初始赋值;
其中,key表示所述不同条件概率对应的变量中的二维元组,a为整数且a>1,b为实数且b>0,p(key)表示条件概率psen(t1,t2)、pdoc(t1,t2)、p(t,p)中的任意一个。
7.一种基于概率软逻辑PSL的事件识别系统,其特征在于,包括:
先验概率模块,配置为:分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率;
PSL识别模块,配置为:在PSL模型中为不同条件概率分别设定对应的变量,设计PSL模型的推理公式,并根据该公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;利用所述事件识别模型对待识别文档进行事件识别;
其中,
所述“分别计算候选与事件的条件概率、以及两个不同候选、两个不同事件、事件与主题、候选与主题出现在同一语句和/或文档中的条件概率”包括:
获取同一语句中出现两个不同候选的条件概率;
获取同一文档中出现两个不同候选的条件概率;
计算候选与事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;
计算在同一文档中出现两个不同事件的条件概率;
计算在同一文档中出现事件与主题的条件概率;
获取候选与主题出现在同一文档的条件概率;
所述“在PSL模型中为不同条件概率分别设定对应的变量,设计PSL模型的推理公式,并根据该公式进行迭代”,具体为:
用topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量;
用topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量;
用candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量;
用eventType(c,t)表示至少迭代一次后的候选c与事件t的条件概率对应的变量;
用sameSen(c1,c2)表示候选c1和候选c2同时出现在同一语句中的条件概率对应的变量;
用senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量;
用candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量;
用eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量;
用eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;
用sameDoc(c1,c2)表示候选c1和候选c2出现在同一文档中的条件概率对应的变量;
用docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量;
设计PSL模型的推理公式:
根据所设计的PSL模型的推理公式进行迭代。
8.根据权利要求7所述的基于概率软逻辑PSL的事件识别系统,其特征在于,所述先验概率模块具体用于:
对若干候选的特征向量在logistic回归模型LRM上执行聚类,得到候选和事件的条件概率;
根据下式计算在同一语句中出现两个不同事件的条件概率psen(t1,t2):
<mrow> <msub> <mi>p</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <msub> <mi>num</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
根据下式计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
<mrow> <msub> <mi>p</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <msub> <mi>num</mi> <mrow> <mi>d</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
和根据下式计算在同一文档中出现事件与主题的条件概率p(t,p):
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t1,t2)表示事件t1和事件t2出现在同一语句中的次数,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的次数,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t,p)表示在同一文档中出现事件t与主题p的次数,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;T表示所有事件类型的集合。
CN201510250005.4A 2015-05-15 2015-05-15 基于概率软逻辑psl的事件识别方法和系统 Active CN104881399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510250005.4A CN104881399B (zh) 2015-05-15 2015-05-15 基于概率软逻辑psl的事件识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510250005.4A CN104881399B (zh) 2015-05-15 2015-05-15 基于概率软逻辑psl的事件识别方法和系统

Publications (2)

Publication Number Publication Date
CN104881399A CN104881399A (zh) 2015-09-02
CN104881399B true CN104881399B (zh) 2017-10-27

Family

ID=53948894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510250005.4A Active CN104881399B (zh) 2015-05-15 2015-05-15 基于概率软逻辑psl的事件识别方法和系统

Country Status (1)

Country Link
CN (1) CN104881399B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512209B (zh) * 2015-11-28 2018-06-19 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN108628821B (zh) * 2017-03-21 2022-11-25 腾讯科技(深圳)有限公司 一种词汇挖掘方法及装置
CN107480137A (zh) * 2017-08-10 2017-12-15 北京亚鸿世纪科技发展有限公司 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN108563655B (zh) * 2017-12-28 2022-05-17 北京百度网讯科技有限公司 基于文本的事件识别方法和装置
CN108345583B (zh) * 2017-12-28 2020-07-28 中国科学院自动化研究所 基于多语注意力机制的事件识别及分类方法及装置
CN110991186B (zh) * 2019-12-05 2024-02-06 电子科技大学广东电子信息工程研究院 一种基于概率软逻辑模型的实体解析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Joint Event Extraction via Structured Prediction with Global Features;Qi Li et al;《Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics》;20130804;第73-82页 *
Probabilistic Soft Logic for Semantic Textual Similarity;Islam Beltagy et al;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20140623;第1210-1219页 *
基于贝叶斯网的一种概率逻辑推理方法;黄甫 等;《云南大学学报(自然科学版)》;20091231;第31卷(第S2期);第308-312页 *

Also Published As

Publication number Publication date
CN104881399A (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN104881399B (zh) 基于概率软逻辑psl的事件识别方法和系统
Fernández-Gavilanes et al. Creating emoji lexica from unsupervised sentiment analysis of their descriptions
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106383817A (zh) 利用分布式语义信息的论文标题生成方法
Soliman et al. Sentiment analysis of Arabic slang comments on facebook
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
CN103294664A (zh) 开放领域新词发现的方法及系统
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN106681986A (zh) 一种多维度情感分析系统
CN109190099A (zh) 句模提取方法及装置
CN106055633A (zh) 一种中文微博主客观句分类方法
CN104572633A (zh) 一种确定多义词词义的方法
Shah et al. A deep learning approach for Hindi named entity recognition
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
Baqapuri Twitter sentiment analysis
CN108038166A (zh) 一种基于词项主客观偏向性的中文微博情感分析方法
CN110110013B (zh) 一种基于时空属性的实体竞争关系数据挖掘方法
Munarko et al. Named entity recognition model for Indonesian tweet using CRF classifier

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant