CN104881399A - 基于概率软逻辑psl的事件识别方法和系统 - Google Patents
基于概率软逻辑psl的事件识别方法和系统 Download PDFInfo
- Publication number
- CN104881399A CN104881399A CN201510250005.4A CN201510250005A CN104881399A CN 104881399 A CN104881399 A CN 104881399A CN 201510250005 A CN201510250005 A CN 201510250005A CN 104881399 A CN104881399 A CN 104881399A
- Authority
- CN
- China
- Prior art keywords
- event
- candidate
- conditional probability
- variable
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013461 design Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 10
- 239000000463 material Substances 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于概率软逻辑PSL的事件识别方法和系统,所述方法包括:计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。本发明所述方法能够提高事件识别的准确性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于概率软逻辑PSL的事件识别方法和系统。
背景技术
随着互联网的蓬勃发展和网络通讯终端的日益普及,人们每天都会接触涉及各个领域的海量信息,例如军事、体育、娱乐等领域的新闻。如何从这些无序、杂乱、非结构的海量信息中发现感兴趣的事件已经成为亟需解决的问题,事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。
事件识别是事件抽取的子任务,在介绍事件识别之前,先对事件抽取做简单的介绍。在事件抽取中,一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出来。例如,对于文本“He died in hospital”,一个理想的事件抽取结果如表1所示。
表1
事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类型是Die。
ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。该评测预定义了8大类、33小类的事件,每个类型的事件都有若干标注的实例。目前的主流技术是将事件识别转化为词分类的问题,然后利用句法分析器等工具抽取候选词附近的信息构建特征向量,最后利用基于特征的分类器进行分类。该方法有两个假设:a.事件的识别只需要考虑候选词所在的句子信息。b.事件与事件之间相互独立,识别过程中不考虑事件与事件之间的影响。图1展示了该方法的基本流程,分为训练和测试两个阶段。训练阶段,对标注数据中的每个事件触发词,利用自然语言处理工具提取潜在有用的信息(词形,词性等),为该实例构建特征向量;将该特征向量和其事件类别对应起来,作为一个标注数据实例。最后利用所有的标注数据实例训练分类模型,得到可用的分类器。测试阶段,该方法将测试文本中的每个词视为一个候选事件触发词,针对每个触发词提取特征构建特征向量,最后用训练好的分类器进行分类,分类器给出的类标就是识别结果。但是,由于分类器的限制,传统技术几乎只利用了候选词附近的局部信息,忽略了篇章级和语料级的全局信息,而这类信息对事件识别来说至关重要。
发明内容
本发明提供一种概率软逻辑PSL(Probabilistic Soft Logic)的事件识别方法和系统,以提高事件识别的准确性。
本发明的第一个方面是提供一种基于概率软逻辑PSL的事件识别方法,包括:
计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
本发明的第二个方面是提供一种基于概率软逻辑PSL的事件识别系统,包括:
先验概率模块,用于计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
PSL识别模块,用于在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
本发明的有益效果为:
本发明基于概率软逻辑PSL的事件识别方法通过采用PSL模型上进行有监督训练,实现了准确可靠事件识别;此外,在对训练词库中候选词进行聚类时,预先获取候选词的高维信息作为先验信息,使对候选词的聚类更加准确,从而提高了事件识别模型整体的识别精度。
附图说明
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图;
图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图;
图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图;
图4为本发明基于概率软逻辑PSL的事件识别系统实施例一的结构框图。
具体实施方式
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图,图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示意图,如图1和图2所示,本发明基于概率软逻辑PSL的事件识别方法包括:
S101、计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
优选的,所述计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率包括:
S1011、生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率;
S1012、计算候选与事件的条件概率;优选的,所述计算候选与事件的条件概率包括:
对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率;这一过程由一个传统的分类模型组成的模块实现,利用上一步抽取的特征向量,使用逻辑斯蒂回归模型,为触发词类型的候选进行预分类,已有方法在使用分类模型时,通常控制模型输出一个事件也即事件类别(为描述方便,简称事件)作为分类结果,本发明的不同之处在于,这一步骤不输出事件,而是给出候选在所有事件上的概率分布;
S1013、计算在同一语句中出现两个不同事件的条件概率;该模块在训练数据集上统计语料级和篇章级的全局信息,构建一个全局信息知识库,为后续PSL模块的推理提供支撑;该模块主要统计两类全局信息:由于训练数据的真实分布未知,理论上,无法获得真实的条件概率分布,只能用在词库训练数据集上的统计量估计它们,分别从语句级(句子级)和文档级(篇章级)的共现来统计这两类条件概率;
优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):
其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;
S1014、计算在同一文档中出现两个不同事件的条件概率;优选的,所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;
S1015、计算在同一文档中出现事件与主题的条件概率;优选的,所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中、p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;文档中描述的事件与该文档的主题密切相关,如一篇娱乐新闻中可能描述Marriage、Born事件,不太可能描述Attack、Die事件;首先利用LDA(Latent DirichletAllocation)算法发现文档的主题,然后计算主题和事件类型之间共现的条件概率来捕获这一信息;
S1016、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法;
其中,S1011~S1016为平行步骤,不区分先后顺序;
S102、在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
优选的,所述在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型包括:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量,如表2所示:
谓词 | 作用 |
candEvt(c,t) | 用于表示分类模块产生的结果中,候选c在类别t上的概率 |
eventType(c,t) | 目标谓词,表示候选c的类别是t |
topic(c,p) | 标识候选c所在的文档的主题为p |
topicEvt(p,t) | 用于表示p(t|p) |
sameSen(c1,c2) | 标识候选c1和c2出现在同一个句子里 |
senEvtEvt(t1,t2) | 用于表示psen(t1|t2) |
sameDoc(c1,c2) | 标识候选c1和c2出现在同一篇文档中 |
docEvtEvt(t1,t2) | 用于表示pdoc(t1|t2) |
表2
公式(5)表示:主题和事件共现的先验概率越大,越可能是正确结果;若候选在共同的句子出现,且已知c1的类型为t1,那么t1和t2在语句级共现的先验概率越大,c2对应的事件越可能是t2;若候选在共同的文档出现,且已知c1对应的的事件为t1,那么t1和t2在文档级共现的先验概率越大,c2的对应的事件越可能是t2;
这里需要说明的是,通过所述PSL模型推理之后,不会直接得到最终的结果,因为模型的输出是变量eventType,它会给出候选c在所有事件上的条件概率,所述PSL模型推理完成之后,我们收集变量eventType的所有实例,对其降序排序,选择值最大的若干结果作为最终结果。
以下举例说明应用本发明基于概率软逻辑PSL的事件识别方法进行训练得到的事件识别模型的检测性能。
测试语料使用ACE2005数据集作为训练和测试语料;该语料共包含599篇标注文档,选择530篇作为训练数据集,39篇作为测试数据集,另外的30篇作为开发数据集。
现有方法和本发明所述方法的测试结果对比如表3所示:
表3
表中第一部分(前三行)是已有方法的结果,第二部分(后两行)是本方法的结果。其中,Baseline(ours)利用了传统方法构建分类模型,唯一的区别是,加入了在步骤1中挖掘的高维信息作为特征;Combined PSL是本方法的完整实现;从实验结果可以看到,基于概率软逻辑的事件识别及分类方法在该任务上的表现超过了已有方法,这个方法被证明是有效的。
本发明基于概率软逻辑PSL的事件识别方法实施例一通过采用PSL模型上进行有监督训练,实现了准确可靠事件识别;此外,在对训练词库中候选词进行聚类时,预先获取候选词的高维信息作为先验信息,使对候选词的聚类更加准确,从而提高了事件识别模型整体的识别精度。
图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图,图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示意图;如图1和图3所示,本发明基于概率软逻辑PSL的事件识别方法实施例二中S2012~S2017与实施例一中S1011~1016对应相同,S202与S102对应相同,不同之处在于,还包括S2011,也即本发明基于概率软逻辑PSL的事件识别方法实施例二中S201包括:
S2011、获取候选的高维的类别信息;这里利用聚类技术,在全部词库数据集上挖掘高维信息,后续的特征提取步骤将使用这些高维信息构建特征,用于分类器的训练和测试,主要挖掘两类高维信息:细粒度实体类型和候选触发词类型;
优选的,所述获取候选的高维的类别信息包括:
S20111、挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识;
传统的命名实体识别(Named Entity Recognition,NER)工具只能识别粗粒度的实体类型,例如机构名、人名、地名等,本发明在传统命名实体识别工具识别结果的基础上,进行细粒度的实体类型挖掘。细粒度实体类型指的是,将实体划分为更细致的类型;例如,对于人名这类实体,可以继续将其细分为政治家、艺术家、科学家等;基本思想是,先用命名实体识别工具识别出语料中所有的实体及其类型,然后对识别出的实体按照恰当的策略进行聚类,使得聚类结果中的每个簇能反应某个细粒度实体类型的信息;本发明的聚类策略是,首先针对数据集中的每个实体,在WordNet中查找其全部的同义词、相关词及上位词,利用这些词构造该实体的描述文本;其中,上位词需要递归地获取,为了限制语义漂移的幅度,设置了递归次数上限,本发明中最多递归四次;
S20112、对触发词类型的候选执行聚类并确定候选的类型标识;
挖掘候选触发词的类别信息时,挖掘的方法和实体细粒度类型挖掘类似,先利用WordNet产生候选词的描述文本,然后通过文本聚类来解决这一问题,产生文本描述的策略和上述方法相同,利用同义词、相关词和上位词进行描述,具体可以使用类型标识对其进行表述;
S2012、生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率;
对于给定的一篇文档,特征提取模块首先将其按照句子进行切分,然后逐句产生候选并提取特征,本发明使用斯坦福大学的Stanford CoreNLP工具对句子进行词法和句法分析;和主流方法相同,本发明将句子中的每个词当作一个触发词候选,分别为这些候选提取特征,构建特征向量;这一过程中不仅提取词法、句法特征,还利用上一步骤中挖掘的高维信息,构建一组高维特征;
S2013、计算候选与事件的条件概率;优选的,所述计算候选与事件的条件概率包括:
对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率;
S2014、计算在同一语句中出现两个不同事件的条件概率;
优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):
其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;
S2015、计算在同一文档中出现两个不同事件的条件概率;优选的,所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;
S2016、计算在同一文档中出现事件与主题的条件概率;优选的,所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中、p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;
S2017、根据主题自动挖掘模型获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法。
本发明基于概率软逻辑PSL的事件识别方法通过加入丰富的高维信息作为特征,使得聚类获得的事件与类型的条件概率这一先验信息更加准确,增加了使用本发明所述方法训练得到的事件识别模型的准确性此外,还可以引入不同维度的全局信息作为特征。
图1本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图,如图1所示,本发明基于概率软逻辑PSL的事件识别方法实施例三中S301的子步骤S3011~S3017与实施例二中S201的子步骤S2011~S2017对应相同,不同之处在于,S302包括:
S3021、在PSL模型中为不同条件概率分别设定对应的变量;
S3022、根据公式(4)确定条件概率的平滑函数值predicate(key):
predicate(key)=min(log(a+p(key)-1,a)/b,1.0) (4)
再用平滑函数值结果对所述不同概率对应的变量进行初始赋值;
其中、key表示所述条件概率对应的变量中的二维元组,a为整数且a>1,b为实数且b>0;
S3023、设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量;需要说明的是,对变量进行初始赋值时,由于统计出的条件概率的方差较大,而PSL模型对变量的值极其敏感,不能直接用统计出的条件概率对相应的变量进行初始化,否则推理结会变差,为了解决这一问题,我们设计所述平滑函数来平滑条件概率之间的差异,a与b为经验值。
图4本发明基于概率软逻辑PSL的事件识别系统实施例一的流程图,如图4所示,本发明基于概率软逻辑PSL的事件识别系统包括:
先验概率模块41,用于计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
PSL识别模块42,用于在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
优选的,所述先验概率模块具体用于:
生成候选的特征向量,获取同一语句中出现两个不同候选的条件概率;
计算候选与事件的条件概率;优选的,所述先验概率模块具体用于:对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;优选的,所述先验概率模块具体用于:根据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):
其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;
计算在同一文档中出现两个不同事件的条件概率;优选的,所述先验概率模块具体用于:根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;
计算在同一文档中出现事件与主题的条件概率;优选的,所述先验概率模块具体用于:根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中、p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;
和根据主题自动挖掘模型,获取候选与主题出现在同一文档的条件概率,所述主题自动挖掘模型可以为LDA算法;
优选的,所述PSL识别模块具体用于:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于概率软逻辑PSL的事件识别方法,其特征在于,包括:
计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
2.根据权利要求1所述的基于PSL的事件识别方法,其特征在于,所述计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率包括:
获取同一语句中出现两个不同候选的条件概率;
计算候选与事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;
计算在同一文档中出现两个不同事件的条件概率;
计算在同一文档中出现事件与主题的条件概率;
获取候选与主题出现在同一文档的条件概率;
相应的,所述在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型包括:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量。
3.根据权利要求2所述的基于PSL的事件识别方法,其特征在于,所述计算候选与事件的条件概率包括:
对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率。
4.根据权利要求2所述的基于PSL的事件识别方法,其特征在于,所述计算在同一语句中出现两个不同事件的条件概率包括根据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):
所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
所述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数,p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数。
5.根据权利要求3所述的基于PSL的事件识别方法,其特征在于,在所述对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率之前,还包括:
获取候选的高维的类别信息。
6.根据权利要求5所述的基于PSL的事件识别方法,其特征在于,所述获取候选的高维的类别信息包括:
挖掘实体类型的候选的细粒度类型并确定候选的上位描述文本或类型标识;
或对触发词类型的候选执行聚类并确定候选的类型标识。
7.根据权利要求5所述的基于PSL的事件识别方法,其特征在于,在所述在PSL模型中为不同条件概率分别设定对应的变量之后,和在所述根据PSL模型的变量公式进行迭代之前,还包括:
根据公式(4)确定条件概率的平滑函数值predicate(key):
predicate(key)=min(log(a+p(key)-1,a)/b,1.0) (4)
再用平滑函数值结果对所述不同概率对应的变量进行初始赋值;
其中、key表示所述条件概率对应的变量中的二维元组,a为整数且a>1,b为实数且b>0。
8.一种基于PSL的事件识别系统,其特征在于,包括:
先验概率模块,用于计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;
PSL识别模块,用于在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。
9.根据权利要求8所述的基于PSL的事件识别系统,其特征在于,所述先验概率模块具体用于:
获取同一语句中出现两个不同候选的条件概率;
计算候选与事件的条件概率;
计算在同一语句中出现两个不同事件的条件概率;
计算在同一文档中出现两个不同事件的条件概率;
计算在同一文档中出现事件与主题的条件概率;
获取候选与主题出现在同一文档的条件概率;
相应的,所述PSL识别模块具体用于:
在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式(5)进行迭代:
以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;
其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量,eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量;sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量,eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档中的条件概率对应的变量。
10.根据权利要求9所述的基于PSL的事件识别系统,其特征在于,所述先验概率模块具体用于:
对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选和事件的条件概率;
根据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):
根据公式(2)计算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):
和根据公式(3)计算在同一文档中出现事件与主题的条件概率p(t,p):
其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率,numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率,numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数,p(t,p)表示在同一文档中出现事件t与主题p的概率,numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510250005.4A CN104881399B (zh) | 2015-05-15 | 2015-05-15 | 基于概率软逻辑psl的事件识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510250005.4A CN104881399B (zh) | 2015-05-15 | 2015-05-15 | 基于概率软逻辑psl的事件识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881399A true CN104881399A (zh) | 2015-09-02 |
CN104881399B CN104881399B (zh) | 2017-10-27 |
Family
ID=53948894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510250005.4A Active CN104881399B (zh) | 2015-05-15 | 2015-05-15 | 基于概率软逻辑psl的事件识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881399B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN107480137A (zh) * | 2017-08-10 | 2017-12-15 | 北京亚鸿世纪科技发展有限公司 | 用语义迭代提取网络突发事件并识别外延事件关系的方法 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108563655A (zh) * | 2017-12-28 | 2018-09-21 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN108628821A (zh) * | 2017-03-21 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
CN110991186A (zh) * | 2019-12-05 | 2020-04-10 | 电子科技大学广东电子信息工程研究院 | 一种基于概率软逻辑模型的实体解析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289487A (zh) * | 2011-08-09 | 2011-12-21 | 浙江大学 | 基于主题模型的网络突发热点事件检测方法 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
-
2015
- 2015-05-15 CN CN201510250005.4A patent/CN104881399B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289487A (zh) * | 2011-08-09 | 2011-12-21 | 浙江大学 | 基于主题模型的网络突发热点事件检测方法 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
Non-Patent Citations (3)
Title |
---|
ISLAM BELTAGY ET AL: "Probabilistic Soft Logic for Semantic Textual Similarity", 《PROCEEDINGS OF THE 52ND ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
QI LI ET AL: "Joint Event Extraction via Structured Prediction with Global Features", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
黄甫 等: "基于贝叶斯网的一种概率逻辑推理方法", 《云南大学学报(自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN105512209B (zh) * | 2015-11-28 | 2018-06-19 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN108628821A (zh) * | 2017-03-21 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
CN108628821B (zh) * | 2017-03-21 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
CN107480137A (zh) * | 2017-08-10 | 2017-12-15 | 北京亚鸿世纪科技发展有限公司 | 用语义迭代提取网络突发事件并识别外延事件关系的方法 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108563655A (zh) * | 2017-12-28 | 2018-09-21 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN108345583B (zh) * | 2017-12-28 | 2020-07-28 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108563655B (zh) * | 2017-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN110991186A (zh) * | 2019-12-05 | 2020-04-10 | 电子科技大学广东电子信息工程研究院 | 一种基于概率软逻辑模型的实体解析方法 |
CN110991186B (zh) * | 2019-12-05 | 2024-02-06 | 电子科技大学广东电子信息工程研究院 | 一种基于概率软逻辑模型的实体解析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104881399B (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543183B (zh) | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN108874878A (zh) | 一种知识图谱的构建系统及方法 | |
Bhonde et al. | Sentiment analysis based on dictionary approach | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN103885938A (zh) | 基于用户反馈的行业拼写错误检查方法 | |
CN102411611B (zh) | 一种面向即时交互文本的事件识别与跟踪方法 | |
CN103268339A (zh) | 微博消息中命名实体识别方法及系统 | |
CN103473280A (zh) | 一种网络可比语料的挖掘方法及装置 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
CN103870001A (zh) | 一种生成输入法候选项的方法及电子装置 | |
CN107169079A (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN104899188A (zh) | 一种基于问题主题和焦点的问题相似度计算方法 | |
CN115062109B (zh) | 一种基于实体对注意力机制的实体关系联合抽取方法 | |
Bilgin et al. | Sentiment analysis with term weighting and word vectors | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN104731774A (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
CN107480137A (zh) | 用语义迭代提取网络突发事件并识别外延事件关系的方法 | |
CN106708926A (zh) | 一种支持海量长文本数据分类的分析模型的实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |