CN111767730A

CN111767730A - 一种事件类型识别方法及装置

Info

Publication number: CN111767730A
Application number: CN202010647610.6A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-13
Anticipated expiration: 2040-07-07
Also published as: CN111767730B

Abstract

本发明公开了一种事件类型识别方法及装置；获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型；获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；确定待识别事件内容中包含的词，与频繁字序列的相似度；基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。该方案可以提高事件类型识别的准确率。

Description

一种事件类型识别方法及装置

技术领域

本申请涉及通信技术领域，具体涉及一种事件类型识别方法及装置。

背景技术

近年来随着信息技术的飞速发展，网络逐步成为一个巨大的数据源，该数据源包含了众多有价值的信息，可以通过对这些信息进行各事件类型识别，确定其所属事件类型，事件类型识别可以广泛地应用于新闻资讯、论坛文章、政策解读等领域。

在对相关技术的研究和实践过程中，本申请的发明人发现目前事件类型识别方法主要是基于预设事件触发词的事件类型识别方法，仅仅依据触发词就判定一个语句是否为某类时间容易出错，例如有些包含触发词的语句，实际上并未表述相关事件，或者一些词语在多个事件类型中都可以作为触发词，所以相关技术中基于触发词进行的事件类型识别的准确率较低。

发明内容

本申请实施例提供一种事件类型识别方法及装置，可以结合事件类型对应的事件类型词，以及事件类型对应的事件内容样本中出现的频繁字，进行事件类型识别，提高事件类型识别的准确率。

本申请实施例提供了一种事件类型识别方法，包括：

获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；

确定所述事件类型词集合中与所述待识别事件内容匹配的事件类型词，并将所述匹配的事件类型词对应的预设事件类型，确定为所述待识别事件内容的暂定事件类型；

获取所述暂定事件类型对应的频繁字序列，所述频繁字序列包括从所述暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；

确定所述待识别事件内容中包含的词，与所述频繁字序列的相似度；

基于所述相似度，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型。

相应的，本申请实施例提供了一种事件类型识别装置，包括：

第一获取单元，用于获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；

匹配单元，用于确定所述事件类型词集合中与所述待识别事件内容匹配的事件类型词，并将所述匹配的事件类型词对应的预设事件类型，确定为所述待识别事件内容的暂定事件类型；

第二获取单元，用于获取所述暂定事件类型对应的频繁字序列，所述频繁字序列包括从所述暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；

第一确定单元，用于确定所述待识别事件内容中包含的词，与所述频繁字序列的相似度；

第二确定单元，用于基于所述相似度，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型。

在一实施例中，第一获取单元，包括：

分词子单元，用于对预设事件类型对应的事件名称进行分词处理，得到至少一个原始事件类型词；

第一获取子单元，用于获取与所述原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的语义关联词集合；

组成子单元，用于从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，以得到所述同一件事类型的所有事件类型词组，将所述同一事件类型的事件类型词组加入对应的事件类型词集合。

在一实施例中，所述匹配单元，包括：

第一匹配子单元，用于将待识别事件内容，与所述事件类型词集合中的事件类型词组进行匹配；

第二匹配子单元，用于当所述待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定所述同一事件类型词组中的事件类型词为与所述识别事件内容匹配的事件类型词。

在一实施例中，第二匹配子单元还用于当所述待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定所述待识别事件内容中匹配成功的词之间的最小距离；当所述最小距离小于预设最大词间距时，确定所述同一事件类型词组中的事件类型词为与所述识别事件内容匹配的事件类型词。

在一实施例中，所述第一确定单元，包括：

第二获取子单元，用于在所述待识别事件内容中，从所述匹配的事件类型词的临近内容中获取上下文窗口词；

第一确定子单元，用于确定所述上下文窗口词与所述频繁字序列的相似度。

在一实施例中，所述第一确定子单元还用于对于各所述上下文窗口词，计算所述上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的所述第一相似度求平均，得到各所述上下文窗口词的第一相似度平均值；对于各上下文窗口词，计算上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的第一相似度求平均，得到各上下文窗口词的第一相似度平均值。

在一实施例中，所述第二确定单元，包括：

第二确定子单元，用于基于所述第一相似度平均值和第二相似度平均值，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型。

在一实施例中，所述第二确定子单元还用于当所述上下文窗口词对应的第一相似度平均值不小于第二相似度平均值时，确定所述上下文窗口词为正向上下文窗口词；当所述上下文窗口词对应的第一相似度平均值小于第二相似度平均值时，确定所述上下文窗口词为负向上下文窗口词；当所述待识别事件内容中的正向上下文窗口词的数量，大于所述负向上下文窗口词的数量时，确定所述待识别事件内容的实际事件类型为所述暂定事件类型；当所述待识别事件内容中的正向上下文窗口词的数量，小于所述负向上下文窗口词的数量时，确定所述待识别事件内容的实际事件类型为所述暂定事件类型的反向事件类型。

在一实施例中，所述第二确定子单元还用于对所述待识别事件内容中所有上下文窗口词的第一相似度平均值求平均，得到所述对待识别事件内容的事件类型正向权重；对所述待识别事件内容中所有上下文窗口词的第二相似度平均值求平均，得到所述对待识别事件内容的事件类型负向权重；若所述事件类型正向权重大于事件类型负向权重，则确定所述待识别事件内容的实际事件类型为所述暂定事件类型；若所述事件类型正向权重小于事件类型负向权重，则确定所述待识别事件内容的实际事件类型为所述暂定事件类型的反向事件类型。

在一实施例中，事件类型识别装置，还包括：

第三获取单元，用于获取所述预设事件类型对应的事件内容样本；

过滤单元，用于从所述预设事件类型的事件内容样本中，过滤掉所述预设事件类型对应的事件类型词，得到过滤后事件内容样本；

挖掘单元，用于基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，对所述过滤后事件内容样本进行频繁字的挖掘，得到所述过滤后事件内容样本的频繁字序列。

在一实施例中，所述挖掘单元，包括：

挖掘子单元，用于基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，通过预设频繁项集挖掘算法挖掘所述过滤后事件内容样本构成频繁项集的频繁字，得到所述过滤后事件内容样本的频繁字序列。

相应的，本申请实施例还提供了一种计算机设备，包括存储器，处理器及存储在储存器上并可在处理器上运行的计算机程序，其中，所述处理器执行本申请实施例任一提供的事件类型识别方法中的步骤。

相应的，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适用于处理器进行加载，以执行本申请实施例任一提供的事件类型识别方法中的步骤。

本申请实施例可以获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型；获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；确定待识别事件内容中包含的词，与频繁字序列的相似度；基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。本方案首先可以获取事件类型词集合并获取事件类型词集合中各事件类型词对应的事件内容样本，然后挖掘事件内容样本的频繁字序列，对于待识别事件内容，通过将待识别事件内容与事件类型词进行匹配，得到匹配的事件类型词，然后基于匹配的事件类型词确定待识别事件内容的上下文窗口词，最后，通过计算上下文窗口词与频繁字序列的相似度，来确定待识别事件内容的实际事件类型，可以提高事件类型识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的事件类型识别方法的场景示意图；

图1b是本申请实施例提供的事件类型识别方法的另一场景示意图；

图2是本申请实施例提供的事件类型识别方法的流程图；

图3是本申请实施例提供的事件类型识别方法的另一流程图；

图4是本申请实施例提供的事件类型识别方法的相似度计算示意图；

图5是本申请实施例提供的事件类型识别方法的另一相似度计算示意图；

图6是本申请实施例提供的事件类型识别方法的另一相似度计算示意图；

图7是本申请实施例提供的事件类型识别方法的另一相似度计算示意图；

图8是本申请实施例提供的事件类型识别方法的装置图；

图9是本申请实施例提供的事件类型识别方法的另一装置图；

图10是本申请实施例提供的事件类型识别方法的另一装置图；

图11是本申请实施例提供的事件类型识别方法的另一装置图；

图12是本申请实施例提供的事件类型识别方法的另一装置图；

图13是本申请实施例提供的事件类型识别方法的另一装置图；

图14是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种事件类型识别方法、装置、计算机设备和存储介质。具体地，本申请实施例提供适用于计算机设备的事件类型识别装置。其中，该计算机设备可以为终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

参考图1a与图1b，以该计算机设备为服务器为例，该服务器可以获取预设事件类型对应的事件类型词、以及预设事件类型对应的事件内容样本；对事件内容样本进行频繁字的挖掘，得到事件内容样本的频繁字序列；确定事件类型词中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型；从事件内容样本的频繁字序列中获取暂定事件类型对应的频繁字序列；确定待识别事件内容中包含的词，与频繁字序列的相似度；基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。

其中，对于确定事件类型词集合中与待识别事件内容匹配的事件类型词的步骤，以及对于待识别事件内容中的词与频繁字序列的相似度的计算步骤，可以基于人工智能领域中的自然语言处理技术实现。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模型、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳效果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，集有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。

其中，自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论与方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

例如，对于确定事件类型词集合中与待识别事件内容匹配的事件类型词的步骤，可以通过自然语言处理模型如Word2Vec模型，确定待识别事件内容中的词的词向量，以及事件类型词集合中事件类型词的词向量，基于词向量对事件类型词与待识别事件内容中的词进行匹配。

由以上可知，本申请实施例首先可以获取事件类型词集合并获取事件类型词集合中各事件类型词对应的事件内容样本，然后挖掘事件内容样本的频繁字序列，对于待识别事件内容，通过将待识别事件内容与事件类型词进行匹配，得到匹配的事件类型词，然后基于匹配的事件类型词确定待识别事件内容的上下文窗口词，最后，通过计算上下文窗口词与频繁字序列的相似度，来确定待识别事件内容的实际事件类型，可以提高事件类型识别的准确率。

本实施例可以以下分别进行详细说明，需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供一种事件类型识别方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以事件类型识别方法由服务器执行为例来进行说明，具体的，由集成在服务器中的事件类型识别装置来执行。如图2所示，该事件类型识别方法的具体流程可以如下：

201、获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词。

本实施例中的事件类型识别具体指的是从待识别事件文本中抽取出包含特定事件的语句，然后通过判断其特征来识别其所属事件类型。

事件类型识别是事件体系构建的关键环节，广泛的应用于新闻资讯、论坛文章、政策解读等领域，例如在金融资讯新闻应用中，通过获取和识别金融资讯的事件类型，能够更好地对金融事件进行归类从而快速解读挖掘潜在的信息，以股票涨跌分析为例，通过挖掘公司经营事件中的业务增长和业务亏损子事件，能够快速获取到公司的经营情况，从而对投资理财、证券交易等提供重要的指导和参考，本申请在事件挖掘相关实践中具有很高的应用价值。

其中，预设事件类型可以是根据各类型事件的属性等信息，进行事件类型划分得到的，比如，对应金融事件，可以划分为公司事件、行情事件、宏观政策事件等，同时还可以对公司事件、行情事件、宏观政策事件等进行细分，例如，以公司事件为例，可以将公司事件划分为一级类目，在一级类目下还可以细分为二级类目、三级类目等，划分后各类目下的事件类型名称如下表所示：

一级类目	二级类目	三级类目
			公司事件	公司经营	业绩增长
公司事件	公司经营	业绩亏损
			公司事件	人事变动	人员调整
公司事件	人事变动	高管变动
			公司事件	公告事件	资质人生
公司事件	公告事件	对外投资
			公司事件	公司治理	股权激励
公司事件	公司治理	股东大会

其中，可以理解的是，公司事件可以细分为公司经营事件、人事变动事件、公告事件、以及公司治理事件等事件，而公司经营事件可以细分为业绩增长事件、业绩亏损事件等事件。

本实施例中的事件类型词集合为可以表征事件类型的词的集合，本实施例的预设事件类型可以有多种，对应的事件类型词集合也有多个，其中，同一事件类型词集合包括同一事件类型对应的事件类型词。

在一实施例中，事件类型词在事件类型词集合中可以是单词的形式存在的。步骤“获取预设事件类型对应的事件类型词集合”，可以包括：

对预设事件类型对应的事件名称进行分词处理，得到至少一个原始事件类型词；

获取与原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的事件类型词集合。

在另一实施例中，事件类型词在事件类型词集合中可以是以词组的形式存在的，具体地，步骤“获取预设事件类型对应的事件类型词集合”，可以包括：

获取与原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的语义关联词集合；

从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，以得到同一件事类型的所有事件类型词组，将同一事件类型的事件类型词组加入对应的事件类型词集合。

其中，扩展事件类型词为与原始事件类型词语义上关联的词，比如，可以为原始事件类型词的近义词，在实际应用中，可以利用同义词林和word2vec词向量相似度方法对原始事件类型词进行近义词扩展，得到扩展事件类型词。

202、确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型。

本实施例中，待识别事件内容可以是直接获取的，或者还可以是从待识别事件文本中提取的。

可选的，在获取预设事件类型对应的事件类型词集合后，还可以包括：

将待识别事件文本中的每个语句，与事件类型词集合中的事件类型词进行匹配；

若语句中出现至少一个与事件类型词匹配的词语，则将语句确定为待识别内容。

其中，匹配的事件类型词为待识别事件与事件类型词相匹配的词，所以此时，可以暂时假设待识别事件内容的事件类型为预设事件类型。

在一个示例中，若事件类型词在事件类型词集合中以单词的形式存在，步骤“确定事件类型词集合中与待识别事件内容匹配的事件类型词”，可以包括：

将待识别事件内容，与事件类型词集合中的事件类型词进行匹配；

基于匹配结果，确定与识别事件内容匹配的事件类型词。

其中，匹配指的是待识别事件内容中存在，与事件类型词集合中事件类型词相同的词，或者是待识别事件内容中存在，与事件类型词集合中事件类型词相似的词。

进一步的，可以先对待识别事件内容进行分词，得到多个待匹配的词语，可以计算所有词语的词向量，以及获取事件类型词的词向量，然后计算待匹配的词语与事件类型词的词向量的相似度，可以通过计算词向量之间的距离，来确定该暂定的词与对应的事件类型词之间的相似度，当该相似度达到预设相似度时，确定该待匹配的词语为待识别事件内容中，与事件类型词集合中事件类型词匹配成功的词。

上述的词语可以由单字或多字组成，本实施例对此没有限制，在匹配之前，可以先去除待匹配的词语中的预设无意义的词语，比如，“的”、“地”，等等。其中，事件类型词的词向量可以是预先计算好的，也可以是实时计算的，本实施例对此没有限制。

在一实施例中，若事件类型词是从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，则步骤“确定事件类型词集合中与待识别事件内容匹配的事件类型词”，可以包括：

将待识别事件内容，与事件类型词集合中的事件类型词组进行匹配；

当待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定同一事件类型词组中的事件类型词为与识别事件内容匹配的事件类型词。

在该实施例中，可以理解的是，当待识别事件内容，只与同一事件类型词组中的部分事件类型词匹配时，不能确定该事件类型词组中的事件类型词为与待识别事件内容匹配的事件类型词。

同理，“待识别事件内容，与同一事件类型词组中的所有事件类型词匹配”中的匹配指的是待识别事件内容中存在，与事件类型词集合中事件类型词相同的词，或者是待识别事件内容中存在，与事件类型词集合中事件类型词相似的词。

在一实施例中，为了提高事件类型识别的准确性，可以设置待识别事件内容中匹配的事件类型词需要满足的最大词间距，基于最大词间距进一步提升与识别事件内容匹配的事件类型词的准确性。具体地，步骤“当待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定同一事件类型词组中的事件类型词为与识别事件内容匹配的事件类型词”，可以包括：

当待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定待识别事件内容中匹配成功的词之间的最小距离；

当最小距离小于预设最大词间距时，确定同一事件类型词组中的事件类型词为与识别事件内容匹配的事件类型词。

本实施例中，待识别事件内容中匹配成功的词指的是，待识别事件内容中与事件类型词匹配成功的词。

在一个示例中，一个事件类型词组中可能包括至少三个事件类型词，对应的，待识别事件内容中匹配出的事件类型词可能为至少三个，上述“待识别事件内容中匹配成功的词之间的最小距离”，为，待识别事件内容中与事件类型词匹配成功的词，之间的最小距离。

比如，最大词间距设置为10，假设事件类型为“业绩增长”，其对应的事件类型词集合中包括事件类型词组：营收&增长，营收&增，营收&涨，待识别事件内容“2019年搜狐出师不利，营收增长失败”，暂时匹配出的事件类型词为“营收”和“增长”，并且该“营收”与“增长”之间的词间距为0，小于最大词间距10，所以可以确定“营收&增长”为最终匹配的事件类型词。

203、获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字。

其中，频繁字序列为从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字，按照一定的规则如频繁字在事件内容样本出现的顺序组成的序列。

其中，步骤203中，可以先对事件内容样本过滤掉对应的事件类型词之后，再对剩余内容中的各字出现的频率进行统计，基于频率进行频繁字序列的获取。

在一实施例中，获取暂定事件类型对应的频繁字序列之前，还可以包括：

获取预设事件类型对应的事件内容样本；

从预设事件类型的事件内容样本中，过滤掉预设事件类型对应的事件类型词，得到过滤后事件内容样本；

基于预设事件类型的过滤后事件内容样本中各字元素的频率，对过滤后事件内容样本进行频繁字的挖掘，得到过滤后事件内容样本的频繁字序列。

其中，从预设事件类型的事件内容样本中，过滤掉预设事件类型对应的事件类型词，可以包括：

从预设事件类型的事件内容样本中，确定与预设事件类型对应的事件类型词匹配的样本词；

从事件内容样本中删除样本词。

其中，预设事件类型对应的事件类型词可以以单词或词组的形式存在，对于词组，从预设事件类型的事件内容样本中，确定与预设事件类型对应的事件类型词匹配的样本词，包括：

对预设事件类型的事件内容样本，与预设事件类型对应的事件类型词组中的每一个事件类型词进行匹配；

若事件内容样本与同一事件类型词组的所有事件类型词匹配成功，则事件内容样本中参与匹配的词为与预设事件类型对应的事件类型词匹配的样本词。

步骤“获取暂定事件类型对应的频繁字序列”，可以包括：

从预设事件类型的频繁字序列中，获取暂定事件类型对应的频繁字序列。

本实施例中，在步骤“基于预设事件类型的过滤后事件内容样本中各字元素的频率”之前，还可以包括：

删除过滤后事件内容样本中的预设字符。

其中，预设字符包括但不限于：数字、字母、以及标点符号等。

在一实施例中，频繁字序列挖掘的步骤“基于预设事件类型的过滤后事件内容样本中各字元素的频率，对过滤后事件内容样本进行频繁字的挖掘，得到过滤后事件内容样本的频繁字序列”可以包括：

基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，通过预设频繁项集挖掘算法挖掘所述过滤后事件内容样本构成频繁项集的频繁字，得到所述过滤后事件内容样本的频繁字序列。

其中，预设频繁项集挖掘算法为挖掘各事件内容样本的频繁字序列的算法，比如，prefixspen算法(频繁项集挖掘算法)、Apriori算法(关联规则挖掘算法)、FP Tree算法(频繁模式树算法)，等等。

其中，频繁项集为由频繁字构成的频繁字序列，一个事件内容样本可以挖掘出多个频繁项集。

在一实施例中，过滤后事件内容样本的频繁字序列的挖掘，可以包括以下步骤：

统计预设事件类型的过滤后事件内容样本中各字元素的第一频率，删除过滤后事件内容样本中第一频率未达到预设频率的字元素；

确定过滤后事件内容样本中的前缀字序列，及前缀字序列对应的后缀字序列；

确定后缀字序列中，各后缀字在所有后缀字序列中的第二频率，删除后缀字序列中第二频率未达到预设频率的后缀字；

从各后缀字序列中取出一个后缀字，将取出的每个后缀字分别与后缀字序列对应的前缀字序列进行组合得到新的前缀字序列，返回执行确定后缀字序列中，各后缀字在所有后缀字序列中的第二频率的步骤，直到后缀字序列中不存在第二频率达到预设频率的后缀字为止；

基于预设事件类型对应的前缀字序列，确定预设事件类型对应的频繁字序列。

其中，对于第一频率，在一个示例中，可以理解为字元素在过滤后事件内容样本出现的次数，与所有过滤后事件内容样本的总字数的比例，在另一个示例中，可以理解为出现字元素的过滤后事件内容样本的数量，与所有过滤后事件内容样本的总数量比例。

其中，对于第二频率，在一个示例中，可以理解为同一后缀字在所有后缀字序列出现的次数，与所有后缀字序列的总字数的比例，在另一个示例中，可以理解为出现同一后缀字的后缀字序列的数量，与所有后缀字序列的总数量比例。

对于事件内容正样本和事件内容负样本，均会通过上述的步骤进行频繁字序列的挖掘。

其中，对于预设事件类型的事件内容正样本，可以先进行事件类型词和预设字符的过滤，得到过滤后事件内容正样本，再进行正向频繁字序列的挖掘。

其中，事件类型词和预设字符的过滤参考上述内容中的相关描述，在此不进行赘述。正向频繁字序列的挖掘过程包括：

统计预设事件类型的过滤后事件内容正样本中各字元素的第一频率，删除过滤后事件内容正样本中第一频率未达到预设频率的字元素；

确定过滤后事件内容正样本中的前缀字序列，及前缀字序列对应的后缀字序列；

基于预设事件类型对应的前缀字序列，确定预设事件类型对应的正向频繁字序列。

其中，对于预设事件类型的事件内容负样本，可以先进行事件类型词和预设字符的过滤，得到过滤后事件内容负样本，再进行负向频繁字序列的挖掘。其中，事件类型词和预设字符的过滤参考上述内容中的相关描述，在此不进行赘述。负向频繁字序列的挖掘过程包括：

统计预设事件类型的过滤后事件内容负样本中各字元素的第一频率，删除过滤后事件内容负样本中第一频率未达到预设频率的字元素；

确定过滤后事件内容负样本中的前缀字序列，及前缀字序列对应的后缀字序列；

基于预设事件类型对应的前缀字序列，确定预设事件类型对应的负向频繁字序列。

本实施例中，同一预设事件类型对应的正向频繁字序列的数量可以为多个，负向频繁字序列的数量也可以为多个。

204、确定待识别事件内容中包含的词，与频繁字序列的相似度，并基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。

其中，相似度可以是基于词向量之间的距离来确定，比如，获取待识别事件内容中的词的词向量，频繁字序列的词向量，然后计算待识别事件内容中的词的词向量与频繁字序列的词向量之间的距离，将该距离作为待识别事件内容中词与频繁字序列的相似度。

其中，词向量之间的距离可以为：欧氏距离、曼哈顿距离、切比雪夫距离，等等。

其中，待识别事件内容中包含的词可以为，对所述待识别事件内容进行分词后得到的词。

在一实施例中，步骤“确定待识别事件内容中包含的词，与频繁字序列的相似度”，可以包括：

在待识别事件内容中，从匹配的事件类型词的临近内容中获取上下文窗口词；

确定上下文窗口词与频繁字序列的相似度。

其中，上下文窗口词为待识别事件内容的上下文内容的窗口词，临近内容中获取上下文窗口词指的是从上下文窗口中获取上下文窗口词。

在一实施例中，事件内容样本包括：事件内容正样本与事件内容负样本；频繁字序列包括：事件内容正样本对应的正向频繁字序列，以及事件内容负样本对应的负向频繁字序列，步骤“确定上下文窗口词与频繁字序列的相似度”，可以包括：

对于各上下文窗口词，计算上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的第一相似度求平均，得到各上下文窗口词的第一相似度平均值；

对于各上下文窗口词，计算上下文窗口词与各负向频繁字序列的第二相似度，并对同一上下文窗口词的第二相似度求平均，得到各上下文窗口词的第二相似度平均值；

基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型，包括：

基于第一相似度平均值和第二相似度平均值，确定待识别事件内容的实际事件类型是否为暂定事件类型。

在一实施例中，步骤“基于第一相似度平均值和第二相似度平均值，确定待识别事件内容的实际事件类型是否为暂定事件类型”，可以包括：

当上下文窗口词对应的第一相似度平均值不小于第二相似度平均值时，确定上下文窗口词为正向上下文窗口词；

当上下文窗口词对应的第一相似度平均值小于第二相似度平均值时，确定上下文窗口词为负向上下文窗口词；

当待识别事件内容中的正向上下文窗口词的数量，大于负向上下文窗口词的数量时，确定待识别事件内容的实际事件类型为暂定事件类型；

当待识别事件内容中的正向上下文窗口词的数量，小于负向上下文窗口词的数量时，确定待识别事件内容的实际事件类型为暂定事件类型的反向事件类型。

例如，对各个正负向频繁字序列相似度进行大小判断，对于事件关联词W，若第二相似度大于第一相似度，则说明事件关联词W为负向极性，即上下文窗口词W为负向上下文窗口词；反之，若第二相似度小于第一相似度，则说明特征词W为正向极性，即上下文窗口词W为正向上下文窗口词。获取待识别事件内容的各上下文窗口词的正负向极性后，根据投票机制，即少数服从多数的原则，以所有上下文窗口词占比高的极性作为该待识别事件内容的事件类型极性，极性正向即为该事件类型，极性负向则为该事件类型的反向事件类型。

对待识别事件内容中所有上下文窗口词的第一相似度平均值求平均，得到对待识别事件内容的事件类型正向权重；

对待识别事件内容中所有上下文窗口词的第二相似度平均值求平均，得到对待识别事件内容的事件类型负向权重；

若事件类型正向权重大于事件类型负向权重，则确定待识别事件内容的实际事件类型为暂定事件类型；

若事件类型正向权重小于事件类型负向权重，则确定待识别事件内容的实际事件类型为暂定事件类型的反向事件类型。

例如，通过将待识别事件内容所有上下文窗口词的第一相似度平均值汇总，取均值，得到待识别事件内容的事件类型正向权重值，同样的，将待识别事件文本所有上下文窗口词的第二相似度平均值汇总，取均值，得到待识别事件内容的事件类型负向权重值，通过比较事件类型正向权重和负向权重的大小，获取该待识别事件内容的事件类型，正向权重值大，则为该事件类型，负向权重值大，则为该事件类型的反向事件类型。

本申请提出的基于序列特征和词语相似度的事件类型识别方法，可以广泛应用于事件体系构建、事件抽取、事件图谱构建等场景，例如，对金融新闻资讯的事件挖掘，能够挖掘与股票涨跌相关因素的金融事件，从而分析个股涨跌规律甚至预测个股涨跌指导金融理财；对论坛文章进行事件类型识别，能够更好地整理归类相似度较高的文章，帮助用户在自己感兴趣的主题下去浏览，本申请方法具有广泛的应用场景，除以上场景外，与事件类型识别的相关场景外，还可以包括其他的应用场景。

根据上述介绍的内容，下面将举例来进一步说明本申请的事件类型识别方法。参考图3，一种事件类型识别方法，具体流程可以如下：

301、对预设事件类型对应的事件名称进行分词处理，得到至少一个原始事件类型词。

302、获取与原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的语义关联词集合。

303、从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，以得到同一件事类型的所有事件类型词组，将同一事件类型的事件类型词组加入对应的事件类型词集合。

例如，以预设事件类型为业绩增长事件类型为例进行说明，其中，业绩增长事件类型可以为金融事件下公司事件_公司经营事件下的事件类型，其中金融事件可以细分为公司事件、行情事件、宏观政策事件等，而公司事件还可以细分为公司经营事件、人事变动事件、公告事件、公司治理事件等，公司经营事件还可以细分为业绩增长事件、业绩亏损事件、人员调整事件，等事件，可以对各类事件进行构造，如下表所示；

其中，根据每个细分类别构建原始事件类型词集合，构建方法可以为：将事件类型名称进行拆分，利用同义词林与word2vec词向量计算相似度的方法，进行语义关联的扩展事件类型词扩展，比如，对于业绩增长事件的事件类型名称“业绩增长”进行拆分，得到拆分后的分词后为“业绩”、“增长”，分别扩展“业绩”与“增长”的语义关联的扩展事件类型词，比如，“业绩”与“增长”的近义词，结果如下：

业绩：绩效、业务、经营、营收、收入、收益、销量、利润……；

增长：增加、上升、增进、提高、增强、翻倍、提升、盈利、增……。

其中，将扩展后的扩展事件类型词包括基准词本身两两组合，构成该事件类型的事件类型词，比如，“业绩&增长、业绩&增加、业务&上升……”，还可以设置事件类型词中词之间的范围，比如，训练样本集中的样本“腾讯音乐上市后业绩环比提升趋势明显”，“业绩”与“提升”之间的词的范围不超过N个词，即“业绩”与“提升”之间字数不超过N个词，N可以为任意实数，比如，N可设置为10等，进而可以得到事件类型词，如下表所示：

事件关键词	一级类目	二级类目	三级类目
				业绩&增、业绩&提升、收入&增长……	公司事件	公司经营	业绩增长
业绩&亏、业绩&赔……	公司事件	公司经营	业绩亏损
				人员&变动、人员&调整……	公司事件	人事变动	人员调整
高管&调动、高管&任……	公司事件	人事变动	高管变动
				资质&认证、资质&许可……	公司事件	公告事件	资质人生
外部&投资、对外&撤资……	公司事件	公告事件	对外投资
				股权&激励、股权&鼓励……	公司事件	公司治理	股权激励
股东&会议、股东&大会……	公司事件	公司治理	股东大会

在一实施例中，为了获取预设事件类型对应的事件内容样本，可以先获取候选事件内容样本，将候选事件内容样本与事件类型词进行匹配，基于匹配结果与事件类型词所属的预设事件类型，对候选事件内容样本进行分类，划分为事件内容正样本与事件内容负样本，最后可以得到预设事件类型对应的事件内容样本。

例如，基于事件类型词召回各事件类型的候选事件内容样本，然后将各候选事件内容样本与各事件类型词进行匹配，匹配到的候选事件内容样本划分为对应事件类型词的正样本，其他的为负样本，最后由划分的正样本与负样本组成预设事件类型对应的事件内容样本。

304、确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型。

其中，对于待识别事件内容，可以与步骤301中的事件类型词进行匹配，并将以该事件类型词的N-gram为窗口内的词作为该匹配的事件类型词的上下文窗口词，N可设为N∈[1,3]，比如，待识别事件内容“2019年搜狐出师不利，营收增长失败”与事件类型词进行匹配，得到匹配的事件类型词为“营收&增长”，N为1时，上下文窗口词为“不利失败”。

305、获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字。

例如，在获取暂定事件类型对应的频繁字序列之前，可以先对正样本和负样本分别进行频繁字序列的挖掘，然后存储挖掘得到的频繁字序列，步骤303中，可以直接获取存储的频繁字序列，当然，在其他实施例中，可以基于暂定事件类型对应的事件内容样本，实时确定暂定事件类型对应的频繁字序列。

可选的，步骤305之前，包括：

从各后缀字序列中取出一个后缀字，加入后缀字序列对应的前缀字序列中，返回执行确定后缀字序列中，各后缀字在所有后缀字序列中的第二频率的步骤，直到后缀字序列中不存在第二频率达到预设频率的后缀字为止；

本实施例中，结合下列示例，对预先获取预设事件类型的频繁字序列的过程进行描述。

例如，可以以挖掘“业绩增长”事件类型的频繁字序列为例进行说明。以实际样本为例，介绍本申请中频繁字序列的挖掘方法。

首先基于每个事件类型的事件内容正样本挖掘该事件类型的正向频繁字序列，以“公司事件_公司经营_业绩增长”这个事件类型为例，具体介绍挖掘过程。

首先对事件内容正样本进行预处理，预处理步骤包括：过滤所有标点符号、字母和数字；再过滤匹配到的事件关键词，得到过滤后事件内容正样本如下表格所示：

过滤后事件内容正样本
	今年月份日照钢铁同比幅位列全省第一
长城汽车月环比大用行动打破市场坚冰
	李宁预计中期同比逾亿元
中国神华上半年神华财务净同比
	双箭股份预计上半年同环比幅均超过往年达到历史新高
宝马集团电动车突破万大关月交付环比
	腾讯视频今年月业务环比
必瘦站年度同比至亿港元
	腾讯音乐上市后环比趋势明显

然后对过滤后事件内容正样本进行分字处理，即对过滤后事件内容正样本按字进行拆分，并设定最小支持度，对该过滤后事件内容正样本进行频繁字序列模式挖掘，比如，统计所有字元素在各样本中出现的样本数，过滤掉小于最小支持度的字元素，即统计过滤后事件内容正样本中各字出现的频率，过滤掉频率小于预设频率的字，其中，最小支持度可以理解为预设频率，假设最小支持度设为1/3，即在这9个样本中至少出现4次才能满足最小支持度，否则过滤该字元素，剩余字元素进行字频率统计，结果如下表所示：

字词	比	年	环	同	月
						字频	9	6	5	5	4

其中，对过滤后事件内容正样本中，小于最小支持度的字元素进行过滤后，得到的样本如下表：

其中，满足最小支持度阈值的前一项前缀可以作为前缀字序列，剩余的后缀字作为后缀字序列，如下：

其中，以“年”这个一项前缀为例，进行下一轮迭代挖掘二项前缀与其对应后缀，对应后缀的出现次数如下表：

字词	比	同	环	月	年
						字频	5	4	2	2	1

其中，由于一项后缀中，“环”、“年”、“月”都达不到最小支持度，因此递归得到前缀为“年”的二项频繁序列为“年比”、“年同”，分别递归得到满足最小支持度的二项前缀与其对应后缀为：

同理，进行下一轮迭代挖掘三项前缀和对应后缀：

三项前缀	对应后缀
		年同比	年

综上，可以理解的是，在频繁字序列挖掘的过程中，是以后缀字序列中的第一个后缀字，添加到对应的前缀字序列的末尾，构成新的频繁字序列。

至此，一项前缀为“年”的频繁序列模式迭代结束，得到各个长度的频繁序列及对应的支持度如下：

事件内容正样本各个长度的频繁字序列	模式支持度
		年	5/9
年比	5/9
		年同	4/9
年同比	4/9

其中，该类事件类型的其他一项前缀的各个长度的频繁字序列及对应的支持度，都可以通过该方法进行挖掘，在此就不一一列出。

其中，模式支持度指的是对应的频繁字序列对于对应的事件类型分类的可信度，比如，“年”这个频繁字序列对于“业绩增长”这个事件类型分类的可信程度。

在实际应用中，还可以基于每个事件类型的事件内容负样本，挖掘该事件类型的负向频繁字序列，同样，以“公司事件_公司经营_业绩增长”这个事件类型为例，具体介绍挖掘过程。

同理，首先对事件内容负样本进行预处理，预处理步骤包括：过滤所有标点符号、字母和数字；再过滤匹配到的事件关键词，得到过滤后事件内容正样本如下表格所示：

过滤后事件内容正样本
	乐视融资失败上半年受阻
中路股份转型受阻重组失败路在何方
	欧派大家居推进受阻负面缠身率大幅下降
加加食品扩张受阻低迷频繁并购试图营业额都以失败告终
	渠道受阻优信二手车负
朗姿股份今年至今同比仍为负
	洋河股份看似但经营现金流为负
人保集团负近成
	十年首现负上汽集团压力山大

过滤掉不满足最小支持度阈值的字元素，并统计剩余字元素的字频，结果如下：

字词	字频
		负	7
受	5
		阻	5

其中，满足最小支持度阈值的一项前缀与其对应后缀分别为：

进行下一轮迭代挖掘二项前缀和对应后缀为：

二项前缀	对应后缀
		受阻

最终得到各个长度的频繁序列及对应的支持度如下：

事件内容负样本各个长度的频繁字序列	模式支持度
		负	7/10
受	1/2
		阻	1/2
受阻	1/2

306、在待识别事件内容中，从匹配的事件类型词的临近内容中获取上下文窗口词。

在一实施例中，计算待识别事件内容中的词与频繁字序列的相似度，可以通过计算待识别事件内容的事件内容关联词与频繁字序列的相似度得到。

其中，在待识别事件内容中，上下文窗口词是从匹配的事件类型词的临近内容中获取得到的。

307、对于各上下文窗口词，计算上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的第一相似度求平均，得到各上下文窗口词的第一相似度平均值。

在一实施例中，上下文窗口词与各正向频繁字序列的第一相似度，可以分别获取上下文窗口词的词向量与各正向频繁字序列的词向量，计算上下文窗口词的词向量与各正向频繁字序列的词向量之间的距离，作为上下文窗口词与各正向频繁字序列的第一相似度。

在一实施例中，参考图4所示，可以直接调用AI-LAB的相似度计算，计算事件类型“业绩增长”的正向频繁字序列“年、同比、环比”与待识别事件内容的事件类型词“营收&增长”的上下文窗口词“不利、失败”的第一相似度，其中，“不利”与“年”的第一相似度由图4可知为0.2427，“不利”与“同比”的第一相似度为0.2743，而“不利”与“环比”的第一相似度为0.1988，所以“不利”第一相似度平均值可以通过以下公式计算出来，为0.2386：

同样的，获取待识别事件内容的上下文窗口词“失败”的相似度，参考图6，可以得到“失败”与“年”的第一相似度为0.2736，“失败”与“同比”的第一相似度为0.2443，而“失败”与“环比”的第一相似度为0.1833，所以“失败”的第一相似度平均值可以通过以下公式计算出来，为0.233733：

进一步的，对各上下文窗口词的第一相似度求平均值，得到各上下文窗口词的第一相似度平均值。

308、对于各上下文窗口词，计算上下文窗口词与各负向频繁字序列的第二相似度，并对同一上下文窗口词的第二相似度求平均，得到各上下文窗口词的第二相似度平均值。

在一实施例中，上下文窗口词与各负向频繁字序列的第二相似度，可以分别获取上下文窗口词的词向量与各负向频繁字序列的词向量，计算上下文窗口词的词向量与各负向频繁字序列的词向量之间的距离，作为上下文窗口词与各正向频繁字序列的第二相似度。

在一实施例中，可以直接调用AI-LAB的相似度计算，计算事件类型“业绩增长”的负向频繁字序列“负、受阻”与待识别事件内容的事件类型词“营收&增长”的上下文窗口词“不利、失败”的相似度，其中，“不利”与“负”的第二相似度由图5可知为0.3169，而“不利”与“受阻”的第二相似度为0.5931，所以“不利”的第二相似度平均值可以通过以下公式计算出来，为0.455：

同样的，获取待识别事件内容的上下文窗口词“失败”的相似度，参考图7，可以得到，“失败”与“负”的第二相似度为0.3368，而“失败”与“受阻”的第二相似度为0.4639，所以“失败”的第二相似度平均值可以通过以下公式计算出来，为0.40035：

进一步的，对各上下文窗口词的第二相似度求平均值，得到各上下文窗口词的第二相似度平均值。

309、基于第一相似度平均值和第二相似度平均值，确定待识别事件内容的实际事件类型是否为暂定事件类型。

其中，根据步骤307与步骤308可以计算出第一相似度、第一相似度平均值、第二相似度、第二相似度平均值，在得到这些相似度之后，可以通过多种计算事件关联词与正向频繁字序列、负向频繁字序列的极性的方法，来确定这个待识别事件内容的实际事件类型。

比如，基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型的方法一：

对各个正负向频繁字序列相似度进行大小判断，对于事件关联词W，若第二相似度大于第一相似度

则说明事件关联词W为负向极性，即上下文窗口词W为负向上下文窗口词；若第二相似度小于第一相似度

则说明特征词W为正向极性，即上下文窗口词W为正向上下文窗口词。获取待识别事件内容的各上下文窗口词的正负向极性后，根据投票机制，即少数服从多数的原则，以所有上下文窗口词占比高的极性作为该待识别事件内容的事件类型极性，极性正向即为该事件类型，极性负向则为该事件类型的反向事件类型。

基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型的方法二：

通过将待识别事件内容所有上下文窗口词的第一相似度平均值汇总，取均值，得到待识别事件内容的事件类型正向权重值，比如：

同样的，将待识别事件文本所有上下文窗口词的第二相似度平均值汇总，取均值，得到待识别事件内容的事件类型负向权重值，比如：

通过比较事件类型正向权重和负向权重的大小，获取该待识别事件内容的事件类型，正向权重值大，则为该事件类型，负向权重值大，则为该事件类型的反向事件类型，比如，正向权重值为0.236167，负向权重值为0.427675，由于负向权重值大于正向权重值，因此该事件文本为非事件类型“业绩增长”，或为事件类型“业绩增长”的反向事件类型。

为了更好地实施以上方法，相应的，本申请实施例还提供一种事件类型识别装置，其中，该事件类型识别装置具体可以集成在服务器中，参考图8，该事件类型识别装置可以包括第一获取单元801、匹配单元802、第二获取单元803、第一确定单元804和第二确定单元805，如下：

(1)第一获取单元801；

第一获取单元801，用于获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词。

在一实施例中，如图9所示，第一获取单元801，包括：

分词子单元8011，用于对预设事件类型对应的事件名称进行分词处理，得到至少一个原始事件类型词；

第一获取子单元8012，用于获取与原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的语义关联词集合；

组成子单元8013，用于从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，以得到同一件事类型的所有事件类型词组，将同一事件类型的事件类型词组加入对应的事件类型词集合。

(2)匹配单元802；

匹配单元802，用于确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型。

在一实施例中，如图10所示，匹配单元802，包括：

第一匹配子单元8021，用于将待识别事件内容，与事件类型词集合中的事件类型词组进行匹配；

第二匹配子单元8022，用于当待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定同一事件类型词组中的事件类型词为与识别事件内容匹配的事件类型词。

在一实施例中，第二匹配子单元8022还用于当待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定待识别事件内容中匹配成功的词之间的最小距离；当最小距离小于预设最大词间距时，确定同一事件类型词组中的事件类型词为与识别事件内容匹配的事件类型词。

(3)第二获取单元803；

第二获取单元803，用于获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字。

(4)第一确定单元804；

第一确定单元804，用于确定待识别事件内容中包含的词，与频繁字序列的相似度。

在一实施例中，如图11所示，第一确定单元804，包括：

第二获取子单元8041，用于在待识别事件内容中，从匹配的事件类型词的临近内容中获取上下文窗口词；

第一确定子单元8042，用于确定上下文窗口词与频繁字序列的相似度。

在一实施例中，第一确定子单元8042还用于对于各上下文窗口词，计算上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的第一相似度求平均，得到各上下文窗口词的第一相似度平均值；对于各上下文窗口词，计算上下文窗口词与各负向频繁字序列的第二相似度，并对同一上下文窗口词的第二相似度求平均，得到各上下文窗口词的第二相似度平均值。

(5)第二确定单元805；

第二确定单元805，用于基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。

在一实施例中，如图12所示，第二确定单元805，包括：

第二确定子单元8051，用于基于第一相似度平均值和第二相似度平均值，确定待识别事件内容的实际事件类型是否为暂定事件类型。

在一实施例中，第二确定子单元8051还用于当上下文窗口词对应的第一相似度平均值不小于第二相似度平均值时，确定上下文窗口词为正向上下文窗口词；当上下文窗口词对应的第一相似度平均值小于第二相似度平均值时，确定上下文窗口词为负向上下文窗口词；当待识别事件内容中的正向上下文窗口词的数量，大于负向上下文窗口词的数量时，确定待识别事件内容的实际事件类型为暂定事件类型；当待识别事件内容中的正向上下文窗口词的数量，小于负向上下文窗口词的数量时，确定待识别事件内容的实际事件类型为暂定事件类型的反向事件类型。

在一实施例中，第二确定子单元8051还用于对待识别事件内容中所有上下文窗口词的第一相似度平均值求平均，得到对待识别事件内容的事件类型正向权重；对待识别事件内容中所有上下文窗口词的第二相似度平均值求平均，得到对待识别事件内容的事件类型负向权重；若事件类型正向权重大于事件类型负向权重，则确定待识别事件内容的实际事件类型为暂定事件类型；若事件类型正向权重小于事件类型负向权重，则确定待识别事件内容的实际事件类型为暂定事件类型的反向事件类型。

在一实施例中，事件类型识别装置，还包括：

第三获取单元806，用于获取预设事件类型对应的事件内容样本；

过滤单元807，用于从预设事件类型的事件内容样本中，过滤掉预设事件类型对应的事件类型词，得到过滤后事件内容样本；

挖掘单元808，用于基于预设事件类型的过滤后事件内容样本中各字元素的频率，对过滤后事件内容样本进行频繁字的挖掘，得到过滤后事件内容样本的频繁字序列。

在一实施例中，如图13所示，挖掘单元808，包括：

挖掘子单元8081，用于基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，通过预设频繁项集挖掘算法挖掘所述过滤后事件内容样本构成频繁项集的频繁字，得到所述过滤后事件内容样本的频繁字序列。

由以上可知，本申请实施例的事件类型识别装置的第一获取单元801获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；然后，由匹配单元802确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型；由第二获取单元803获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；由第一确定单元804确定待识别事件内容中包含的词，与频繁字序列的相似度；由第二确定单元805基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。该方案首先可以获取事件类型词集合并获取事件类型词集合中各事件类型词对应的事件内容样本，然后挖掘事件内容样本的频繁字序列，对于待识别事件内容，通过将待识别事件内容与事件类型词进行匹配，得到匹配的事件类型词，然后基于匹配的事件类型词确定待识别事件内容的上下文窗口词，最后，通过计算上下文窗口词与频繁字序列的相似度，来确定待识别事件内容的实际事件类型，可以提高事件类型识别的准确率。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器等设备，如图14所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上存储介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解，图14中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器901是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器901可包括一个或多个处理核心；优选的，处理器901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器901中。

存储器902可用于存储软件程序以及模块，处理器901通过运行存储在存储器902的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器902还可以包括存储器控制器，以提供处理器901对存储器902的访问。

计算机设备还包括给各个部件供电的电源903，优选的，电源903可以通过电源管理系统与处理器901逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元904，该输入单元904可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器901会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中，并由处理器901来运行存储在存储器902中的应用程序，从而实现各种功能，如下：

获取预设事件类型对应的事件类型词集合，其中，一个事件类型词集合中包括同一事件类型对应的事件类型词；确定事件类型词集合中与待识别事件内容匹配的事件类型词，并将匹配的事件类型词对应的预设事件类型，确定为待识别事件内容的暂定事件类型；获取暂定事件类型对应的频繁字序列，频繁字序列包括从暂定事件类型对应的多个事件内容样本中挖掘出的频繁字；确定待识别事件内容中包含的词，与频繁字序列的相似度；基于相似度，确定待识别事件内容的实际事件类型是否为暂定事件类型。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种事件类型识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种事件类型识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种事件类型识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种事件类型识别方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种事件类型识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取预设事件类型对应的事件类型词集合，包括：

获取与所述原始事件类型词语义关联的扩展事件类型词，将同一原始事件类型词和对应的扩展事件类型词加入对应的语义关联词集合；

从同一事件类型的每个语义关联词集合中各取一个事件类型词组成事件类型词组，以得到所述同一件事类型的所有事件类型词组，将所述同一事件类型的事件类型词组加入对应的事件类型词集合；

所述确定所述事件类型词集合中与所述待识别事件内容匹配的事件类型词，包括：

将待识别事件内容，与所述事件类型词集合中的事件类型词组进行匹配；

当所述待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定所述同一事件类型词组中的事件类型词为与所述识别事件内容匹配的事件类型词。

3.根据权利要求2所述的方法，其特征在于，所述当所述待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定所述同一事件类型词组中的事件类型词为与所述识别事件内容匹配的事件类型词，包括：

当所述待识别事件内容，与同一事件类型词组中的所有事件类型词匹配时，确定所述待识别事件内容中匹配成功的词之间的最小距离；

当所述最小距离小于预设最大词间距时，确定所述同一事件类型词组中的事件类型词为与所述识别事件内容匹配的事件类型词。

4.根据权利要求1所述的方法，其特征在于，所述获取所述暂定事件类型对应的频繁字序列之前，所述方法还包括：

获取所述预设事件类型对应的事件内容样本；

从所述预设事件类型的事件内容样本中，过滤掉所述预设事件类型对应的事件类型词，得到过滤后事件内容样本；

基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，对所述过滤后事件内容样本进行频繁字的挖掘，得到所述过滤后事件内容样本的频繁字序列。

5.根据权利要求4所述的方法，其特征在于，所述基于所述预设事件类型的过滤后事件内容样本中各字元素的频率，对所述过滤后事件内容样本进行频繁字的挖掘，得到所述过滤后事件内容样本的频繁字序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述待识别事件内容中包含的词，与所述频繁字序列的相似度，包括：

在所述待识别事件内容中，从所述匹配的事件类型词的临近内容中获取上下文窗口词；

确定所述上下文窗口词与所述频繁字序列的相似度。

7.根据权利要求6所述的方法，其特征在于，所述事件内容样本包括：事件内容正样本与事件内容负样本；所述频繁字序列包括：所述事件内容正样本对应的正向频繁字序列，以及所述事件内容负样本对应的负向频繁字序列；

所述确定所述上下文窗口词与所述频繁字序列的相似度，包括：

对于各所述上下文窗口词，计算所述上下文窗口词与各正向频繁字序列的第一相似度，并对同一上下文窗口词的所述第一相似度求平均，得到各所述上下文窗口词的第一相似度平均值；

对于各所述上下文窗口词，计算所述上下文窗口词与各负向频繁字序列的第二相似度，并对同一上下文窗口词的所述第二相似度求平均，得到各所述上下文窗口词的第二相似度平均值；

所述基于所述相似度，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型，包括：

基于所述第一相似度平均值和第二相似度平均值，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一相似度平均值和第二相似度平均值，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型，包括：

当所述上下文窗口词对应的第一相似度平均值不小于第二相似度平均值时，确定所述上下文窗口词为正向上下文窗口词；

当所述上下文窗口词对应的第一相似度平均值小于第二相似度平均值时，确定所述上下文窗口词为负向上下文窗口词；

当所述待识别事件内容中的正向上下文窗口词的数量，大于所述负向上下文窗口词的数量时，确定所述待识别事件内容的实际事件类型为所述暂定事件类型；

当所述待识别事件内容中的正向上下文窗口词的数量，小于所述负向上下文窗口词的数量时，确定所述待识别事件内容的实际事件类型为所述暂定事件类型的反向事件类型。

9.根据权利要求7所述的方法，其特征在于，所述基于所述第一相似度平均值和第二相似度平均值，确定所述待识别事件内容的实际事件类型是否为所述暂定事件类型，包括：

对所述待识别事件内容中所有上下文窗口词的第一相似度平均值求平均，得到所述对待识别事件内容的事件类型正向权重；

对所述待识别事件内容中所有上下文窗口词的第二相似度平均值求平均，得到所述对待识别事件内容的事件类型负向权重；

若所述事件类型正向权重大于事件类型负向权重，则确定所述待识别事件内容的实际事件类型为所述暂定事件类型；

若所述事件类型正向权重小于事件类型负向权重，则确定所述待识别事件内容的实际事件类型为所述暂定事件类型的反向事件类型。

10.一种事件类型识别装置，其特征在于，包括：