CN104881399A

CN104881399A - 基于概率软逻辑psl的事件识别方法和系统

Info

Publication number: CN104881399A
Application number: CN201510250005.4A
Authority: CN
Inventors: 刘康; 赵军; 徐立恒; 刘树林
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-09-02
Anticipated expiration: 2035-05-15
Also published as: CN104881399B

Abstract

本发明提供一种基于概率软逻辑PSL的事件识别方法和系统，所述方法包括：计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率；在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型。本发明所述方法能够提高事件识别的准确性。

Description

基于概率软逻辑PSL的事件识别方法和系统

技术领域

本发明属于自然语言处理技术领域，尤其涉及基于概率软逻辑PSL的事件识别方法和系统。

背景技术

随着互联网的蓬勃发展和网络通讯终端的日益普及，人们每天都会接触涉及各个领域的海量信息，例如军事、体育、娱乐等领域的新闻。如何从这些无序、杂乱、非结构的海量信息中发现感兴趣的事件已经成为亟需解决的问题，事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务，主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。

事件识别是事件抽取的子任务，在介绍事件识别之前，先对事件抽取做简单的介绍。在事件抽取中，一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成，其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分，并以结构化的形式展现出来。例如，对于文本“He died in hospital”，一个理想的事件抽取结果如表1所示。

表1

事件识别和事件抽取的不同之处在于，其只关注事件触发词和事件类型的识别，并不关注事件参与者及其角色。例如，对于上面的例子，事件识别的任务是识别出该句子描述了一个事件，该事件的触发词是“died”，事件类型是Die。

ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。该评测预定义了8大类、33小类的事件，每个类型的事件都有若干标注的实例。目前的主流技术是将事件识别转化为词分类的问题，然后利用句法分析器等工具抽取候选词附近的信息构建特征向量，最后利用基于特征的分类器进行分类。该方法有两个假设：a.事件的识别只需要考虑候选词所在的句子信息。b.事件与事件之间相互独立，识别过程中不考虑事件与事件之间的影响。图1展示了该方法的基本流程，分为训练和测试两个阶段。训练阶段，对标注数据中的每个事件触发词，利用自然语言处理工具提取潜在有用的信息(词形，词性等)，为该实例构建特征向量；将该特征向量和其事件类别对应起来，作为一个标注数据实例。最后利用所有的标注数据实例训练分类模型，得到可用的分类器。测试阶段，该方法将测试文本中的每个词视为一个候选事件触发词，针对每个触发词提取特征构建特征向量，最后用训练好的分类器进行分类，分类器给出的类标就是识别结果。但是，由于分类器的限制，传统技术几乎只利用了候选词附近的局部信息，忽略了篇章级和语料级的全局信息，而这类信息对事件识别来说至关重要。

发明内容

本发明提供一种概率软逻辑PSL(Probabilistic Soft Logic)的事件识别方法和系统，以提高事件识别的准确性。

本发明的第一个方面是提供一种基于概率软逻辑PSL的事件识别方法，包括：

计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率；

在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型。

本发明的第二个方面是提供一种基于概率软逻辑PSL的事件识别系统，包括：

先验概率模块，用于计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率；

PSL识别模块，用于在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型。

本发明的有益效果为：

本发明基于概率软逻辑PSL的事件识别方法通过采用PSL模型上进行有监督训练，实现了准确可靠事件识别；此外，在对训练词库中候选词进行聚类时，预先获取候选词的高维信息作为先验信息，使对候选词的聚类更加准确，从而提高了事件识别模型整体的识别精度。

附图说明

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图；

图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图；

图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图；

图4为本发明基于概率软逻辑PSL的事件识别系统实施例一的结构框图。

具体实施方式

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图，图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图，如图1和图2所示，本发明基于概率软逻辑PSL的事件识别方法包括：

S101、计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率；

优选的，所述计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率包括：

S1011、生成候选的特征向量，获取同一语句中出现两个不同候选的条件概率；

S1012、计算候选与事件的条件概率；优选的，所述计算候选与事件的条件概率包括：

对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率；这一过程由一个传统的分类模型组成的模块实现，利用上一步抽取的特征向量，使用逻辑斯蒂回归模型，为触发词类型的候选进行预分类，已有方法在使用分类模型时，通常控制模型输出一个事件也即事件类别(为描述方便，简称事件)作为分类结果，本发明的不同之处在于，这一步骤不输出事件，而是给出候选在所有事件上的概率分布；

S1013、计算在同一语句中出现两个不同事件的条件概率；该模块在训练数据集上统计语料级和篇章级的全局信息，构建一个全局信息知识库，为后续PSL模块的推理提供支撑；该模块主要统计两类全局信息：由于训练数据的真实分布未知，理论上，无法获得真实的条件概率分布，只能用在词库训练数据集上的统计量估计它们，分别从语句级(句子级)和文档级(篇章级)的共现来统计这两类条件概率；

优选的，所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一文档中出现两个不同事件的条件概率p_sen(t₁，t₂)：

p_{sen} (t_{1}, t_{2}) = \frac{{num}_{sen} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{sen} (t_{1}, t_{2})} - - - (1)

其中、p_sen(t₁，t₂)表示事件t₁和事件t₂出现在同一语句中的概率，num_sen(t，t₂)表示事件t和事件t₂出现在同一语句中的次数；

S1014、计算在同一文档中出现两个不同事件的条件概率；优选的，所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率p_doc(t₁，t₂)：

p_{doc} (t_{1}, t_{2}) = \frac{{num}_{doc} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{doc} (t_{1}, t_{2})} - - - (2)

其中、p_doc(t₁，t₂)表示事件t₁和事件t₂出现在同一文档中的概率，num_doc(t，t₂)表示事件t和事件t₂出现在同一文档中的次数；

S1015、计算在同一文档中出现事件与主题的条件概率；优选的，所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t，p)：

p (t, p) = \frac{num (t, p)}{\underset{t^{'} &Element; T}{Σ} {num}_{doc} (t^{'}, p)} - - - (3)

其中、p(t，p)表示在同一文档中出现事件t与主题p的概率，num_doc(t'，p)表示在同一文档中出现事件t'与主题p的次数；文档中描述的事件与该文档的主题密切相关，如一篇娱乐新闻中可能描述Marriage、Born事件，不太可能描述Attack、Die事件；首先利用LDA(Latent DirichletAllocation)算法发现文档的主题，然后计算主题和事件类型之间共现的条件概率来捕获这一信息；

S1016、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率，所述主题自动挖掘模型可以为LDA算法；

其中，S1011～S1016为平行步骤，不区分先后顺序；

S102、在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型；

优选的，所述在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型包括：

在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式(5)进行迭代：

(\begin{matrix} topic (c, p)^topicEvt (p, t)^candEvt (c, t) &RightArrow; eventType (c, t) \\ sameSen (c_{1}, c_{2})^senEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \\ sameDoc (c_{1}, c_{2})^docEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \end{matrix} - - - (5)

以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型；

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量，topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量，candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量，eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量；sameSen(c₁,c₂)表示候选c₁和候选c₂同时出现在一个语句中的条件概率对应的变量，senEvtEvt(t₁,t₂)表示事件t₁和事件t₂出现在同一语句中的条件概率对应的变量，candEvt(c₂,t₂)表示初始的候选c₂与事件t₂的条件概率对应的变量，eventType(c₁,t₁)表示迭代后的候选c₁与事件t₁的条件概率对应的变量，eventType(c₂,t₂)表示至少迭代一次后的候选c₂与事件t₂的条件概率对应的变量；sameDoc(c₁,c₂)表示候选c₁和候选c₂同时出现在一个文档中的条件概率对应的变量，docEvtEvt(t₁,t₂)表示事件类型t₁和事件类型t₂出现在同一文档中的条件概率对应的变量，如表2所示：

谓词	作用
		candEvt(c,t)	用于表示分类模块产生的结果中，候选c在类别t上的概率
eventType(c,t)	目标谓词，表示候选c的类别是t
		topic(c,p)	标识候选c所在的文档的主题为p
topicEvt(p,t)	用于表示p(t\|p)
		sameSen(c₁,c₂)	标识候选c₁和c₂出现在同一个句子里
senEvtEvt(t₁,t₂)	用于表示p_sen(t₁\|t₂)
		sameDoc(c₁,c₂)	标识候选c₁和c₂出现在同一篇文档中
docEvtEvt(t₁,t₂)	用于表示p_doc(t₁\|t₂)

表2

公式(5)表示：主题和事件共现的先验概率越大，越可能是正确结果；若候选在共同的句子出现，且已知c₁的类型为t₁，那么t₁和t₂在语句级共现的先验概率越大，c₂对应的事件越可能是t₂；若候选在共同的文档出现，且已知c₁对应的的事件为t₁，那么t₁和t₂在文档级共现的先验概率越大，c₂的对应的事件越可能是t₂；

这里需要说明的是，通过所述PSL模型推理之后，不会直接得到最终的结果，因为模型的输出是变量eventType，它会给出候选c在所有事件上的条件概率，所述PSL模型推理完成之后，我们收集变量eventType的所有实例，对其降序排序，选择值最大的若干结果作为最终结果。

以下举例说明应用本发明基于概率软逻辑PSL的事件识别方法进行训练得到的事件识别模型的检测性能。

测试语料使用ACE2005数据集作为训练和测试语料；该语料共包含599篇标注文档，选择530篇作为训练数据集，39篇作为测试数据集，另外的30篇作为开发数据集。

现有方法和本发明所述方法的测试结果对比如表3所示：

表3

表中第一部分(前三行)是已有方法的结果，第二部分(后两行)是本方法的结果。其中，Baseline(ours)利用了传统方法构建分类模型，唯一的区别是，加入了在步骤1中挖掘的高维信息作为特征；Combined PSL是本方法的完整实现；从实验结果可以看到，基于概率软逻辑的事件识别及分类方法在该任务上的表现超过了已有方法，这个方法被证明是有效的。

本发明基于概率软逻辑PSL的事件识别方法实施例一通过采用PSL模型上进行有监督训练，实现了准确可靠事件识别；此外，在对训练词库中候选词进行聚类时，预先获取候选词的高维信息作为先验信息，使对候选词的聚类更加准确，从而提高了事件识别模型整体的识别精度。

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图，图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图；如图1和图3所示，本发明基于概率软逻辑PSL的事件识别方法实施例二中S2012～S2017与实施例一中S1011～1016对应相同，S202与S102对应相同，不同之处在于，还包括S2011，也即本发明基于概率软逻辑PSL的事件识别方法实施例二中S201包括：

S2011、获取候选的高维的类别信息；这里利用聚类技术，在全部词库数据集上挖掘高维信息，后续的特征提取步骤将使用这些高维信息构建特征，用于分类器的训练和测试，主要挖掘两类高维信息：细粒度实体类型和候选触发词类型；

优选的，所述获取候选的高维的类别信息包括：

S20111、挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识；

传统的命名实体识别(Named Entity Recognition，NER)工具只能识别粗粒度的实体类型，例如机构名、人名、地名等，本发明在传统命名实体识别工具识别结果的基础上，进行细粒度的实体类型挖掘。细粒度实体类型指的是，将实体划分为更细致的类型；例如，对于人名这类实体，可以继续将其细分为政治家、艺术家、科学家等；基本思想是，先用命名实体识别工具识别出语料中所有的实体及其类型，然后对识别出的实体按照恰当的策略进行聚类，使得聚类结果中的每个簇能反应某个细粒度实体类型的信息；本发明的聚类策略是，首先针对数据集中的每个实体，在WordNet中查找其全部的同义词、相关词及上位词，利用这些词构造该实体的描述文本；其中，上位词需要递归地获取，为了限制语义漂移的幅度，设置了递归次数上限，本发明中最多递归四次；

S20112、对触发词类型的候选执行聚类并确定候选的类型标识；

挖掘候选触发词的类别信息时，挖掘的方法和实体细粒度类型挖掘类似，先利用WordNet产生候选词的描述文本，然后通过文本聚类来解决这一问题，产生文本描述的策略和上述方法相同，利用同义词、相关词和上位词进行描述，具体可以使用类型标识对其进行表述；

S2012、生成候选的特征向量，获取同一语句中出现两个不同候选的条件概率；

对于给定的一篇文档，特征提取模块首先将其按照句子进行切分，然后逐句产生候选并提取特征，本发明使用斯坦福大学的Stanford CoreNLP工具对句子进行词法和句法分析；和主流方法相同，本发明将句子中的每个词当作一个触发词候选，分别为这些候选提取特征，构建特征向量；这一过程中不仅提取词法、句法特征，还利用上一步骤中挖掘的高维信息，构建一组高维特征；

S2013、计算候选与事件的条件概率；优选的，所述计算候选与事件的条件概率包括：

对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率；

S2014、计算在同一语句中出现两个不同事件的条件概率；

p_{sen} (t_{1}, t_{2}) = \frac{{num}_{sen} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{sen} (t_{1}, t_{2})} - - - (1)

S2015、计算在同一文档中出现两个不同事件的条件概率；优选的，所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率p_doc(t₁，t₂)：

p_{doc} (t_{1}, t_{2}) = \frac{{num}_{doc} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{doc} (t_{1}, t_{2})} - - - (2)

S2016、计算在同一文档中出现事件与主题的条件概率；优选的，所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t，p)：

p (t, p) = \frac{num (t, p)}{\underset{t^{'} &Element; T}{Σ} {num}_{doc} (t^{'}, p)} - - - (3)

其中、p(t，p)表示在同一文档中出现事件t与主题p的概率，num_doc(t'，p)表示在同一文档中出现事件t'与主题p的次数；

S2017、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率，所述主题自动挖掘模型可以为LDA算法。

本发明基于概率软逻辑PSL的事件识别方法通过加入丰富的高维信息作为特征，使得聚类获得的事件与类型的条件概率这一先验信息更加准确，增加了使用本发明所述方法训练得到的事件识别模型的准确性此外，还可以引入不同维度的全局信息作为特征。

图1本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图，如图1所示，本发明基于概率软逻辑PSL的事件识别方法实施例三中S301的子步骤S3011～S3017与实施例二中S201的子步骤S2011～S2017对应相同，不同之处在于，S302包括：

S3021、在PSL模型中为不同条件概率分别设定对应的变量；

S3022、根据公式(4)确定条件概率的平滑函数值predicate(key)：

predicate(key)＝min(log(a+p(key)-1，a)/b，1.0) (4)

再用平滑函数值结果对所述不同概率对应的变量进行初始赋值；

其中、key表示所述条件概率对应的变量中的二维元组，a为整数且a＞1，b为实数且b＞0；

S3023、设计并根据PSL模型的变量公式(5)进行迭代：

(\begin{matrix} topic (c, p)^topicEvt (p, t)^candEvt (c, t) &RightArrow; eventType (c, t) \\ sameSen (c_{1}, c_{2})^senEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \\ sameDoc (c_{1}, c_{2})^docEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \end{matrix} - - - (5)

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量，topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量，candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量，eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量；sameSen(c₁,c₂)表示候选c₁和候选c₂同时出现在一个语句中的条件概率对应的变量，senEvtEvt(t₁,t₂)表示事件t₁和事件t₂出现在同一语句中的条件概率对应的变量，candEvt(c₂,t₂)表示初始的候选c₂与事件t₂的条件概率对应的变量，eventType(c₁,t₁)表示迭代后的候选c₁与事件t₁的条件概率对应的变量，eventType(c₂,t₂)表示至少迭代一次后的候选c₂与事件t₂的条件概率对应的变量；sameDoc(c₁,c₂)表示候选c₁和候选c₂同时出现在一个文档中的条件概率对应的变量，docEvtEvt(t₁,t₂)表示事件类型t₁和事件类型t₂出现在同一文档中的条件概率对应的变量；需要说明的是，对变量进行初始赋值时，由于统计出的条件概率的方差较大，而PSL模型对变量的值极其敏感，不能直接用统计出的条件概率对相应的变量进行初始化，否则推理结会变差，为了解决这一问题，我们设计所述平滑函数来平滑条件概率之间的差异，a与b为经验值。

图4本发明基于概率软逻辑PSL的事件识别系统实施例一的流程图，如图4所示，本发明基于概率软逻辑PSL的事件识别系统包括：

先验概率模块41，用于计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率；

PSL识别模块42，用于在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型。

优选的，所述先验概率模块具体用于：

生成候选的特征向量，获取同一语句中出现两个不同候选的条件概率；

计算候选与事件的条件概率；优选的，所述先验概率模块具体用于：对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率；

计算在同一语句中出现两个不同事件的条件概率；优选的，所述先验概率模块具体用于：根据公式(1)计算在同一文档中出现两个不同事件的条件概率p_sen(t₁，t₂)：

p_{sen} (t_{1}, t_{2}) = \frac{{num}_{sen} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{sen} (t_{1}, t_{2})} - - - (1)

计算在同一文档中出现两个不同事件的条件概率；优选的，所述先验概率模块具体用于：根据公式(2)计算在同一文档中出现两个不同事件的条件概率p_doc(t₁，t₂)：

p_{doc} (t_{1}, t_{2}) = \frac{{num}_{doc} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{doc} (t_{1}, t_{2})} - - - (2)

计算在同一文档中出现事件与主题的条件概率；优选的，所述先验概率模块具体用于：根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t，p)：

p (t, p) = \frac{num (t, p)}{\underset{t^{'} &Element; T}{Σ} {num}_{doc} (t^{'}, p)} - - - (3)

和根据主题自动挖掘模型，获取候选与主题出现在同一文档的条件概率，所述主题自动挖掘模型可以为LDA算法；

优选的，所述PSL识别模块具体用于：

(\begin{matrix} topic (c, p)^topicEvt (p, t)^candEvt (c, t) &RightArrow; eventType (c, t) \\ sameSen (c_{1}, c_{2})^senEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \\ sameDoc (c_{1}, c_{2})^docEvtEvt (t_{1}, t_{2})^candEvt (c_{2}, t_{2})^eventType (c_{1}, t_{1}) &RightArrow; eventType (c_{2}, t_{2}) \end{matrix} - - - (5)

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量，topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量，candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量，eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量；sameSen(c₁,c₂)表示候选c₁和候选c₂同时出现在一个语句中的条件概率对应的变量，senEvtEvt(t₁,t₂)表示事件t₁和事件t₂出现在同一语句中的条件概率对应的变量，candEvt(c₂,t₂)表示初始的候选c₂与事件t₂的条件概率对应的变量，eventType(c₁,t₁)表示迭代后的候选c₁与事件t₁的条件概率对应的变量，eventType(c₂,t₂)表示至少迭代一次后的候选c₂与事件t₂的条件概率对应的变量；sameDoc(c₁,c₂)表示候选c₁和候选c₂同时出现在一个文档中的条件概率对应的变量，docEvtEvt(t₁,t₂)表示事件类型t₁和事件类型t₂出现在同一文档中的条件概率对应的变量。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于概率软逻辑PSL的事件识别方法，其特征在于，包括：

2.根据权利要求1所述的基于PSL的事件识别方法，其特征在于，所述计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率包括：

获取同一语句中出现两个不同候选的条件概率；

计算候选与事件的条件概率；

计算在同一语句中出现两个不同事件的条件概率；

计算在同一文档中出现两个不同事件的条件概率；

计算在同一文档中出现事件与主题的条件概率；

获取候选与主题出现在同一文档的条件概率；

相应的，所述在PSL模型中为不同条件概率分别设定对应的变量，设计并根据PSL模型的变量公式进行迭代，以最大化候选与事件的条件概率对应的变量，得到候选在最大化条件下对应的特定的事件，并构成事件识别模型包括：

3.根据权利要求2所述的基于PSL的事件识别方法，其特征在于，所述计算候选与事件的条件概率包括：

对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率。

4.根据权利要求2所述的基于PSL的事件识别方法，其特征在于，所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一文档中出现两个不同事件的条件概率p_sen(t₁，t₂)：

p_{sen} (t_{1}, t_{2}) = \frac{{num}_{sen} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{sen} (t_{1}, t_{2})} - - - (1)

所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率p_doc(t₁，t₂)：

p_{doc} (t_{1}, t_{2}) = \frac{{num}_{doc} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{doc} (t_{1}, t_{2})} - - - (2)

所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t，p)：

p (t, p) = \frac{num (t, p)}{\underset{t^{'} &Element; T}{Σ} {num}_{doc} (t^{'} p)} - - - (3)

其中、p_sen(t₁，t₂)表示事件t₁和事件t₂出现在同一语句中的概率，num_sen(t，t₂)表示事件t和事件t₂出现在同一语句中的次数；p_doc(t₁，t₂)表示事件t₁和事件t₂出现在同一文档中的概率，num_doc(t，t₂)表示事件t和事件t₂出现在同一文档中的次数，p(t，p)表示在同一文档中出现事件t与主题p的概率，num_doc(t'，p)表示在同一文档中出现事件t'与主题p的次数。

5.根据权利要求3所述的基于PSL的事件识别方法，其特征在于，在所述对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率之前，还包括：

获取候选的高维的类别信息。

6.根据权利要求5所述的基于PSL的事件识别方法，其特征在于，所述获取候选的高维的类别信息包括：

挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识；

或对触发词类型的候选执行聚类并确定候选的类型标识。

7.根据权利要求5所述的基于PSL的事件识别方法，其特征在于，在所述在PSL模型中为不同条件概率分别设定对应的变量之后，和在所述根据PSL模型的变量公式进行迭代之前，还包括：

根据公式(4)确定条件概率的平滑函数值predicate(key)：

predicate(key)＝min(log(a+p(key)-1，a)/b，1.0) (4)

其中、key表示所述条件概率对应的变量中的二维元组，a为整数且a＞1，b为实数且b＞0。

8.一种基于PSL的事件识别系统，其特征在于，包括：

9.根据权利要求8所述的基于PSL的事件识别系统，其特征在于，所述先验概率模块具体用于：

获取同一语句中出现两个不同候选的条件概率；

计算候选与事件的条件概率；

计算在同一语句中出现两个不同事件的条件概率；

计算在同一文档中出现两个不同事件的条件概率；

计算在同一文档中出现事件与主题的条件概率；

获取候选与主题出现在同一文档的条件概率；

相应的，所述PSL识别模块具体用于：

10.根据权利要求9所述的基于PSL的事件识别系统，其特征在于，所述先验概率模块具体用于：

对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类，得到候选和事件的条件概率；

根据公式(1)计算在同一文档中出现两个不同事件的条件概率p_sen(t₁，t₂)：

p_{sen} (t_{1}, t_{2}) = \frac{{num}_{sen} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{sen} (t_{1}, t_{2})} - - - (1)

根据公式(2)计算在同一文档中出现两个不同事件的条件概率p_doc(t₁，t₂)：

p_{doc} (t_{1}, t_{2}) = \frac{{num}_{doc} (t_{1}, t_{2})}{\underset{t &Element; T}{Σ} {num}_{doc} (t_{1}, t_{2})} - - - (2)

和根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t，p)：

p (t, p) = \frac{num (t, p)}{\underset{t^{'} &Element; T}{Σ} {num}_{doc} (t^{'} p)} - - - (3)