CN110162771B

CN110162771B - 事件触发词的识别方法、装置、电子设备

Info

Publication number: CN110162771B
Application number: CN201811397484.2A
Authority: CN
Inventors: 刘树林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2023-08-29
Anticipated expiration: 2038-11-22
Also published as: CN110162771A

Abstract

本发明涉及计算机技术领域，提供了一种事件触发词的识别方法、装置及电子设备，该事件触发词的识别方法包括：获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题；基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇‑主题分布矩阵，其中所述词汇为所述词序列中的词汇，所述主题与所述事件类型相对应；根据所述词汇‑主题分布矩阵确定目标文本中的事件触发词。本发明能够降低事件标注的成本，提高事件触发词的识别准确率和识别效率。

Description

事件触发词的识别方法、装置、电子设备

技术领域

本发明涉及计算机领域，特别涉及一种事件触发词的识别方法、事件触发词的识别装置、及电子设备。

背景技术

随着计算机技术的飞速发展，越来越多的人愿意在互联网上分享经验、知识，互联网上堆积了大量的文本信息，而这些信息往往是以无边界半结构化的形式存在，想从海量的数据中发现直观的感兴趣的知识难度很大，因此人们需要将事件和事件关系抽取出来，组成直观、有效的知识。

事件抽取属于信息抽取的重要组成部分，ACE(Automatic Context Extraction)评测会议中对事件给出的定义为：事件是发生在某个特定时间(时间段)和某个特定地域范围内，由一个或多个角色参与的，由一个或多个动作构成的事情或状态的改变。事件触发词是事件的核心，直接表明事件的发生，是决定事件类别的最主要特征。目前识别事件触发词的方法主要有有监督的方法和无监督的方法，但是有监督的方法依赖标注数据，需要标注出事件类型和触发词，标注成本高昂且可扩展性受限；无监督的方法不需要标注数据，但是只能处理开放领域的事件抽取，无法处理预定义类型的事件抽取。

鉴于此，本领域亟需开发一种新的事件触发词的识别方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种事件触发词的识别方法、事件触发词的识别装置及电子设备，进而至少在一定程度上提高事件触发词的识别精度和效率，降低事件标注的成本，提高用户体验。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供一种事件触发词的识别方法，其特征在于，包括：获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题；基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，所述主题与所述事件类型相对应；根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。

根据本发明实施例的一个方面，提供了一种事件触发词的识别装置，其特征在于，包括：主题设定模块，用于获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题；模型处理模块，用于基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，并且所述主题与所述事件类型相对应；第一触发词确定模块，用于根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。

根据本发明实施例的一方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的事件触发词的识别方法。

由上述技术方案可知，本发明示例性实施例中的事件触发词的识别方法及装置、电子设备至少具备以下优点和积极效果：

本发明通过对文本进行分词并确定主题后，通过文本主题生成模型对文本中的词汇在各个主题上的分布进行推理，获取词汇-主题分布矩阵；然后根据词汇-主题分布矩阵确定目标文本中的事件触发词。本发明一方面能够基于标注的事件类型识别出文本中的事件触发词，降低了事件标注的成本，提高了识别准确率；另一方面，在对文本进行分词后还可以对分词形成的词汇进行词性标注，识别命名实体并进行匿名操作，模型根据匿名了命名实体的文本能够更准确地学习到正确的特征，提高事件触发词的识别准确率；再一方面，获取事件触发词后，可以根据事件触发词的置信度对事件触发词进行筛选，进一步提高了识别的准确度。

本发明应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本发明实施例的事件触发词的识别方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一实施例的事件触发词的识别方法的流程示意图；

图4示意性示出了根据本发明的一实施例的Labeled LDA在事件触发词的识别中的生成过程示意图；

图5示意性示出了根据本发明的一实施例的确定事件触发词的流程示意图；

图6示意性示出了根据本发明的一实施例的识别事件触发词的流程示意图；

图7示意性示出了根据本发明的一实施例的筛选事件触发词的流程示意图；

图8示意性示出了根据本发明的一实施例的事件触发词的识别装置的结构示意图；

图9示意性示出了根据本发明的一实施例的事件触发词的识别装置的结构示意图；

图10示意性示出了根据本发明的一实施例的事件触发词的识别装置的结构示意图；

图11示意性示出了根据本发明的一实施例的事件触发词的识别装置的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的事件触发词的识别方法、事件触发词的识别装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、逻辑服务器、存储服务器等。比如服务器103可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送信息等。终端设备101可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器103可以是提供各种服务的代理服务器。例如服务器103可以接收用户输入至终端设备101中的多个文本或者是用户通过终端设备101获取的多个文本，并获取各文本对应的事件类型；接着可以将文本上标注的事件类型作为文本的主题，进一步的还可以通过对文本进行分词，根据分词得到的词汇是否为任何事件的触发词对文本添加新的主题，以形成文本的主题；然后基于文本的主题通过文本主题生成模型挖掘文本中的词汇在各个主题上的分布，形成词汇-主题分布矩阵，用以表示词汇与主题的相关度；最后根据词汇-主题分布矩阵可以确定目标文本中的事件触发词。本发明中的事件触发词的识别方法是一种半监督事件触发词识别方法，仅需标注文本的事件类型信息，即可识别出事件触发词，提高了识别准确率和识别效率，降低了事件标注的成本。进一步的，服务器103还可以在分词后对词汇进行词性标注、命名实体识别，并将命名实体进行匿名，仅保留命名实体的类型信息；在设置主题时，可以将不属于任何事件的事件触发词的主题设定为“其它”，即对文本添加一个“其它”主题，这样可以进一步提高事件触发词识别的准确度和识别效率。另外，在获取词汇-主题分布矩阵后，还可以根据词汇的词性信息将所有词性为动词、名词和形容词的词汇形成候选事件触发词集合，根据词汇-主题分布矩阵从候选事件触发词集合中确定事件触发词；进一步的，还可以在获取所有的事件触发词后，计算各个事件触发词的置信度，并删除置信度低于预设值的事件触发词，以进一步提高事件触发词的识别准确率。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。该电子设备能够执行本发明上述实施例中所述的事件触发词的识别方法，能够获取多个文本，对文本进行分词以形成词序列，并根据文本的事件类型确定文本的主题；接着基于文本的主题，通过文本主题生成模型对文本进行处理以获得词汇-主题分布矩阵，其中词汇为词序列中的词汇，主题与事件类型相对应；最后根据词汇-主题分布矩阵确定目标文本中的事件触发词，通过执行该方法能够高效率、高准确率的识别事件触发词。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本发明的系统中限定的各种功能。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

在本领域的相关技术中，识别事件触发词的方法包括有监督方法和无监督方法，其中有监督方法是将事件触发词识别的任务建模为词分类的任务，根据模型的不同，有监督方法可以进一步的分为基于特征的方法和基于表示学习的方法，对于基于特征的方法，首先通过词法分析和句法分析等基础自然语言处理工具，从文本中抽取特征，构建特征向量；然后利用支持向量机、逻辑斯蒂回归等分类模型对特征向量进行建模、分类；对于表示学习的方法则是将候选的事件触发词及其上下文表示为低维的稠密向量，然后输入到神经网络模型，如卷积神经网络CNN、循环神经网络RNN等，对模型进行训练；通过训练好的机器学习模型识别事件触发词。无监督的方法主要应用在开放域事件抽取中，不能预先定义事件的类型，这类方法一般采用聚类的方式，将描述同一事件的文本聚合到一起，然后抽取其中的关键词和关键实体，其中的关键词即可看作事件触发词。

相应地，相关技术中的事件触发词的识别方法存在缺陷，对于有监督方法，事件触发词的识别方法依赖标注数据(事件类型和事件触发词)，标注成本高昂，当需要对新的领域进行事件触发词识别时，需要重新标注数据，导致有监督方法的可扩展性受限；对于无监督方法，虽然不需要标注数据，但是这类方法只能处理开放领域的事件抽取，无法处理预定义类型的事件抽取。

基于相关技术中存在的问题，在本发明的一个实施例中提出了一种事件触发词的识别方法，以对上述问题进行优化处理。

本发明实施例首先对事件触发词的识别方法进行说明，具体参照图3所示，该事件触发词的识别方法可由服务器执行，至少包括以下步骤：

步骤S310：获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题；

步骤S320：基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，所述主题与所述事件类型相对应；

步骤S330：根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。

本发明实施例中的事件触发词的识别一方面是基于主题进行的，也就是说事件触发词的识别方法是一种半监督的事件触发词的识别方法，相较于有监督的方法无需进行过多的标注，仅需标注事件类型，因此本发明能够降低事件标注的成本，另一方面，通过文本主题生成模型形成词汇-主题分布矩阵，并基于该词汇-主题分布矩阵确定目标文本的事件触发词能够提高事件触发词的识别准确率和识别效率，进一步提升了用户体验。

为了使本发明的技术方案更清晰，接下来对事件触发词的识别方法的各步骤进行说明。

在步骤S310中，获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题。

在本发明的示例性实施例中，首先获取多个文本，该些文本可以是用户输入至终端设备101中的文本，也可以用户通过终端设备101获取的文本，例如用户通过与终端设备101连接的外部输入设备(如键盘等)，或者是通过终端设备101中内置的输入装置(如软键盘等)，向终端设备101中输入文本，该输入文本即可作为服务器103获取文本的来源；用户通过终端设备101中的新闻客户端阅读新闻，其中的新闻文本也可以作为服务器103获取文本的来源；当然还可以通过其它方式获取文本，本发明对此不作具体限定。

在本发明的示例性实施例中，在获取多个文本后，可以对各个文本进行分词以形成词序列。其中对文本进行分词所采用的方法可以是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法，其中基于字符串匹配的分词方法是按照一定策略将待分词的汉字串与一个机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，即识别出一个词。基于字符串匹配的分词方法根据扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，可以分为单纯分词方法和分词与词性标注相结合的一体化方法。基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果，其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分，常用的统计模型有N元文法模型(N-gram)、隐马尔可夫模型(Hidden Markov Model，HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields，CRF)等。当然还可以通过其它方法对文本进行分词，本发明在此不再赘述。

在本发明的示例性实施例中，在获取多个文本的同时可以获取各个文本的事件类型，该事件类型可以是人工标注的，即通过有经验的人员对文本中的事件进行识别，标注文本的事件类型；也可以是通过机器识别文本的事件范围，并基于该事件范围标注文本的事件类型。由于事件一般表现为句子级，因此在下文的说明中会将每个句子建模为一个文本，对句子中的事件触发词进行识别。在获得文本的事件类型后，可以将文本上标注的事件类型作为文本的主题，例如对于文本“成龙与林凤娇于1982年12月1日在洛杉矶举行婚礼”，其事件类型为“结婚”，则该文本的主题即为“结婚”。当然，文本中还可能存在其它的事件，使得文本的事件类型不限于一种，那么文本的主题也就有多个，也就是说文本的主题数量与文本的事件类型的数量相对应。

在本发明的示例性实施例中，文本中的词汇不全都对应某一事件，对于不是任何事件的触发词的词汇，其主题不属于任何事件类型，那么可以增加一文本主题，例如可以设定该文本主题为“其它”，概括而言，文本的主题可以包括第一主题和第二主题，其中第一主题为与文本中的目标事件的触发相关的主题，第二主题为与文本中的目标事件的触发不相关的主题。举例而言，对于文本“成龙与林凤娇于1982年12月1日在洛杉矶举行婚礼”，通过对该文本进行分词可以获取词序列“成龙/与/林凤娇/于/1982年12月1日/在/洛杉矶/举行/婚礼”，其中“成龙”、“林凤娇”为人物名，“1982年12月1日”为时间，“洛杉矶”为地点，“婚礼”是发生的事件，其中的人物名、时间和地点都不是事件触发词，“婚礼”为事件触发词，因此可以将“成龙”、“和”、“林凤娇”、“于”等词的主题设定为“其它”，进而能够确定该文本的主题为“结婚”和“其它”。值得说明的是，文本的主题包括但不限于上述示例中的两个主题，本发明对此不做具体限定。

在步骤S320中，基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，所述主题与所述事件类型相对应。

在本发明的示例性实施例中，获取文本的主题后，可以通过文本主题生成模型对文本进行处理，挖掘文本中的词汇在各个主题上的分布，最终根据获取的目标主题和目标词汇确定一词汇-主题分布矩阵，其中目标主题的分布和目标词汇的分布均服从多项式分布，该词汇-主题分布矩阵为一概率矩阵，词汇-主题分布矩阵中的每个元素P_w(t)表示词汇w对应主题t的概率值，该概率值也可以看做是词汇与主题的相关度。

在本发明的示例性实施例中，该文本主题生成模型可以是附加类别标签的文本主题生成模型(labeled LDA)，该文本主题生成模型能将文本中词汇对应的主题分布限定于选定的文本的主题上，以步骤S310中的示例为例，文本的主题为“结婚”和“其它”，那么文本的主题分布就只在“结婚”和“其它”两个主题上有分布，除此之外的主题上的分布都为零。

在本发明的示例性实施例中，图4示出了Labeled LDA在事件触发词的识别中的生成过程示意图，如图4所示：

在步骤S401中，获取多个文本的事件类型的数量，并对多个文本的事件类型进行编号；例如通过对多个文本进行分析，获取了共计T个事件类型，那么事件类型的数量t∈{1,2,......T}，其中T为正整数；

在步骤S402中，根据对多个文本进行分词形成的词汇的数量确定第一超参数；具体地，可以设定η为第一超参数，其可以是一个V维向量，V表示多个文本所包含的词汇的数量；

在步骤S403中，根据第一超参数确定第一参数，该第一参数为目标主题-目标词汇的分布的参数；设定第一参数为β_t，该第一参数β_t满足以第一超参数为参数变量的狄利克雷分布，即β_t～Dir(η)；进一步的，每个主题t对应的词汇分布可以用多项式来建模，记为Multi(β_t)；

在步骤S404中，根据标注的文本的事件类型确定第二超参数；具体地，可以设定α^(s)为第二超参数，其可以是一K维向量，K表示选定的主题的数量，由于文本的事件类型和Labeled LDA模型中的主题是相对应的，那么α^(s)也可以是根据标注的事件类型确定的超参数；

在步骤S405中，根据第二超参数确定第二参数，该第二参数为词汇位置-目标主题的分布的参数；设定第二参数为θ^(s)，该第二参数θ^(s)满足以第二超参数为参数变量的狄利克雷分布，即θ^(s)～Dir(α^(s))，进一步的，每个词汇w对应的主题分布可以用多项式来建模，记为Multi(θ_w)；

在步骤S406中，根据词汇位置和第二参数确定目标主题；对于文本中的第i个词汇位置，其中i∈{1,2，......N_s}，N为正整数，根据词汇位置i和第二参数θ^(s)可以确定目标主题Z_i，该目标主题满足Z_i～Multi(θ^(s))；

在步骤S407中，根据目标主题和第一参数确定目标词汇；由于每个主题t对应的词汇分布可以用多项式Multi(β_t)来建模，因此对应目标主题Z_i可以确定第i个词汇位置的目标词汇w_i，该目标词汇w_i满足w_i～Multi(β_zi)；

在步骤S408中，根据目标主题和目标词汇确定词汇-主题分布矩阵；由于目标主题的分布和目标词汇的分布均服从多项式分布，因此可以根据目标主题到目标词汇的分布获得目标词汇对应的主题分布。举例而言，对于目标主题t1和t2均对应相同的目标词汇w1、w2、w3和w4，而各目标主题到目标词汇的分布不同，其中t1＝{w1:0.2,w2:0.3,w3:0.5,w4:0.1}，t2＝{w1:0.4,w2:0.2,w3:0.3,w4:0.1}，根据上述分布可以推出目标词汇到目标主题的分布为：w1＝{t1:0.2,t2:0.4}，w2＝{t1:0.3,t2:0.2}，w3＝{t1:0.5,t2:0.3}，w4＝{t1:0.1,t2:0.1}，进一步的，根据上述分布可以获得所有目标词汇对应的目标主题的分布，其中目标词汇w1在目标主题t1上的概率为0.2/(0.2+0.4)＝0.3，目标词汇w2在目标主题t2上的概率为0.4/(0.2+0.4)＝0.7，依次类推可以获得w2、w3、w4分别在t1和t2上的概率，进而可以根据目标词汇对应的目标主题的分布获得词汇-主题分布矩阵。

表1示出了词汇-主题分布矩阵，如下所示：

表1

	t1	t2
			w1	0.3	0.7
w2	0.6	0.4
			w3	0.6	0.4
w4	0.5	0.5

在步骤S330中，根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。

在本发明的示例性实施例中，在确定词汇-主题分布矩阵后，可以根据词汇-主题分布矩阵确定目标文件中的事件触发词。图5示出了确定事件触发词的流程示意图，如图5所示，在步骤S501中，根据目标文本的事件类型确定目标文本的主题；其中目标文本的主题根据目标文本的事件类型确定，对于目标文本中存在的词汇不是任何事件的触发词的情况，还可以为文本添加新主题“其它”，由该新主题和事件类型作为目标文本的主题；在步骤S502中，将目标文本的主题与词汇-主题分布矩阵进行匹配，根据匹配结果确定所述事件触发词；由于事件类型与主题相对应，因此可以将目标文本的主题与词汇-主题分布矩阵中的主题进行匹配，以获取事件触发词；在步骤S503中，若词汇-主题分布矩阵中存在与目标文本的主题匹配的匹配主题，则抽取词汇-主题分布矩阵中与匹配主题相关度最高的词汇，并将该与匹配主题相关度最高的词汇作为目标文本的事件触发词。

在本发明的示例性实施例中，该目标文本可以是步骤S310中获取的多个文本中的文本，也可以是用户给定的任意的不同于步骤S310中获取的文本。值得说明的是，本发明中的词汇-主题分布矩阵中的语料应当足够丰富，可保证根据该词汇-主题分布矩阵能够获得目标文本中的事件触发词。

在本发明的示例性实施例中，对于步骤S310中获取的多个文本，可以在对文本进行分词形成词汇后，对词汇进行词性标注，以获取标有词性信息的词序列。具体地，可以通过SnowNLP、THULAC、NLPIR等分词工具对文本进行分词并进行词性标注。

进一步的，还可以识别词序列中的命名实体，对命名实体进行匿名化操作，以提高事件触发词的识别准确率。其中，命名实体为人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等。实体匿名化是指隐匿命名实体的具体信息，只保留其类型信息，例如对于文本“潘长江恩师李春明去世”，如果不进行实体匿名化，假设获取的多个文本中包含“潘长江”的文本说的全都是其恩师去世的事件(死亡事件)，那么模型很容易将“潘长江”误作为“死亡”事件的触发词，这样会降低事件触发词的识别准确率，因此优选对文本进行匿名化以提高识别准确率。对上述文本进行分词并进行词性标注后可以获得标有词性信息的词序列，该词序列的结构具体为：“潘长江/N”“恩师/N”“李春明/N”“去世/V”，其中的命名实体有“潘长江”和“李春明”；接着对命名实体进行匿名化操作，词序列转换为如下结构：“PERSON/N”“恩师/N”“PERSON/N”“去世/V”；最后将文本输入模型进行特征学习。通过将文本中的实体进行匿名化后输入模型可以帮助模型更准确地学习到正确的特征，提高事件触发词的识别准确率。

在本发明的示例性实施例中，为了提高事件触发词的识别效率和准确率，还可以根据目标文本形成候选触发词集合，从候选触发词集合中确定事件触发词。图6示出了识别事件触发词的流程示意图，如图6所示，在步骤S601中，对目标文本进行分词获取目标词序列，并进行目标词序列中的词汇标注词性信息；在步骤S602中，根据词性信息对目标文本中的词汇进行筛选，以获取候选触发词集合；经统计发现，事件触发词主要是动词、名词和形容词，因此可以从目标文本中抽取所有的词性为动词、名词和形容词的词汇形成候选触发词集合，记为C(s)；在步骤S603中，根据词汇-主题分布矩阵和目标文本的事件类型从候选触发词集合中确定事件触发词，事件触发词的选取表达式如公式(1)所示：

其中，w为事件触发词，p_w(t)为词汇-主题分布矩阵中的元素。

事件触发词的确定具体地可以是将根据目标文本的事件类型确定的主题与词汇-主题分布矩阵中的主题进行匹配，若存在与目标文本的主题匹配的匹配主题时，则抽取词汇-主题分布矩阵中与匹配主题相关度较高的多个词汇；然后将该些相关度较高的词汇与候选触发词集合进行匹配，选取候选触发词集合中与匹配主题相关度最高的词汇作为目标文本的事件触发词。进一步的，还可以在目标文本的事件类型的基础上，通过对目标文本进行分析，为目标文本添加“其它”主题，以提高事件触发词的识别准确率。

在本发明的示例性实施例中，每种事件类型的事件一般只由为数不多的词汇进行触发，例如“结婚”事件常见的触发词有“结婚”、“大婚”、“婚礼”、“成婚”、“成亲”。ACE2005语料是事件抽取任务中规模最大的数据集，在该数据集上统计的结果表明，每个事件类型的事件平均只有31.8个不同的触发词，基于此，还可以通过确定某词汇作为某类型事件的事件触发词的置信度，根据置信度对事件触发词进行筛选，以提高事件触发词的识别准确率。

图7示出了筛选事件触发词的流程示意图，如图7所示：

在步骤S701中，根据词汇-主题分布矩阵中词汇和主题的相关度获取目标文本中的词汇作为事件触发词的置信度；事件触发词的置信度的计算公式如公式(2)所示：

Conf(w,t)＝1.0/rank(w,t) (2)

其中，rank(w,t)表示词汇w在所有主题为t的词汇中按照概率降序排列所在的位次，Conf(w,t)表示词汇w作为事件触发词的置信度。

从公式(2)分析可知，词汇w在所有主题为t的词汇中按照概率降序排列的位次越靠前，表明词汇w的主题为t的置信度越高，也就是说词汇w作为事件触发词的置信度也越高。

在步骤S702中，将该置信度与一预设值进行比较，判断是否存在置信度小于所述预设值的事件触发词；该预设值可以根据实际需要进行设定，比如将预设值设定为0.01，也就是说每种事件类型最多有100个不同的事件触发词。

在步骤S703中，若判定存在置信度小于所述预设值的目标事件触发词，则删除所述目标事件触发词；通过将置信度小于预设值的事件触发词丢弃能够提高事件触发词的识别准确率。

本发明中的事件触发词的识别方法能够基于多个文本及文本中标注的事件类型，通过文本主题生成模型挖掘文本中的词汇在各个主题上的分布，进而形成词汇-主题分布矩阵，进一步的，根据词汇-主题分布矩阵可以获取目标文本中的事件触发词，表2-表3分别示出了输入的文本信息和输出的事件触发词，具体如下所示：

表2

文本	事件类型
		潘长江恩师李春明去世	死亡
蔡依林晒与家人合照变成黑美人	合影
		通用汽车股价涨逾10％	股价波动

表3

文本	事件类型	事件触发词
			潘长江恩师李春明去世	死亡	去世
蔡依林晒与家人合照变成黑美人	合影	合照
			通用汽车股价涨逾10％	股价波动	涨

由于本发明中的事件触发词的识别方法只需要文本的事件类型信息，即可识别出事件触发词，因此本发明降低了事件标注的成本，提高了识别准确率；另一方面，在对文本进行分词后还可以对分词形成的词汇进行词性标注，识别命名实体并进行匿名操作，模型根据匿名了命名实体的文本能够更准确地学习到正确的特征，提高事件触发词的识别准确率；再一方面，获取事件触发词后，可以根据事件触发词的置信度对事件触发词进行筛选，进一步提高了识别的准确度。

以下介绍本发明的装置实施例，可以用于执行本发明上述的事件触发词的识别方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的事件触发词的识别方法的实施例。

图8示意性示出了根据本发明的一个实施例的事件触发词的识别装置的框图。

参照图8所示，根据本发明的一个实施例的事件触发词的识别装置800，包括：主题设定模块801、模型处理模块802和第一触发词确定模块803。

具体地，主题设定模块801，用于获取多个文本，对所述文本进行分词以形成词序列，并根据所述文本的事件类型确定所述文本的主题；模型处理模块802，用于基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，并且所述主题与所述事件类型相对应；第一触发词确定模块803，用于根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。

在本发明的一个实施例中，所述主题设定模块801包括：词性标注单元，用于对所述文本进行分词以获取词汇，并对所述词汇进行词性标注，以获取标有词性信息的词序列。

在本发明的一个实施例中，所述主题包括第一主题和第二主题，所述第一主题为与所述文本中目标事件的触发相关的主题，所述第二主题为与所述目标事件的触发不相关的主题。

图9示意性示出了根据本发明的一个实施例的事件触发词的识别装置的框图。

参照图9所示，所述事件触发词的识别装置800还包括：命名实体获取模块804和命名实体匿名模块805。

具体地，命名实体获取模块804，用于获取所述词序列中的命名实体；命名实体匿名模块805，用于将所述命名实体进行匿名操作，仅保留所述命名实体的类型信息。

在本发明的一个实施例中，所述模型处理模块802包括：主题分布单元和模型处理单元。

具体地，主题分布单元，用于将所述文本中的词汇所对应的主题分布限定于所述主题上；模型处理单元，用于通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵。

在本发明的一个实施例中，所述模型处理单元802包括：目标主题生成单元、目标词汇生成单元和分布矩阵确定单元。

具体地，目标主题生成单元，用于通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题；目标词汇生成单元，用于根据所述目标主题，通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇，其中所述目标主题的分布和所述目标词汇的分布均服从多项式分布；分布矩阵确定单元，用于根据所述目标主题和所述目标词汇确定所述词汇-主题分布矩阵。

在本发明的一个实施例，所述目标词汇生成单元包括：编号单元、第一超参数确定单元、第一参数确定单元和目标词汇确定单元。

具体地，编号单元，用于获取所述文本的事件类型的数量，并对所述文本的事件类型进行编号；第一超参数确定单元，用于根据所述文本中的词汇量确定第一超参数；第一参数确定单元，用于根据所述第一超参数确定第一参数，所述第一参数为目标主题-目标词汇的分布的参数；目标词汇确定单元，用于根据所述目标主题和所述第一参数确定所述目标词汇。

在本发明的一个实施例，所述目标主题生成单元包括：第二超参数确定单元、第二参数确定单元和目标主题确定单元。

具体地，第二超参数确定单元，用于根据所述文本的事件类型确定第二超参数；第二参数确定单元，用于根据所述第二超参数确定第二参数，所述第二参数为词汇位置-目标主题的分布的参数；目标主题确定单元，用于根据所述词汇位置和所述第二参数确定所述目标主题。

在本发明的一个实施例，所述第一触发词确定模块803包括：主题确定单元和匹配单元。

具体地，主题确定单元，用于根据所述目标文本的事件类型确定所述目标文本的主题；匹配单元，用于将所述目标文本的主题与所述词汇-主题分布矩阵进行匹配，并根据匹配结果确定所述事件触发词。

在本发明的一个实施例，所述词汇-主题分布矩阵中的元素表示词汇与主题的相关度，所述匹配单元包括：触发词确定单元，用于当所述词汇-主题分布矩阵中存在与所述目标文本的主题匹配的匹配主题时，抽取所述词汇-主题分布矩阵中与所述匹配主题相关度最高的词汇，并将所述与所述匹配主题相关度最高的词汇作为所述事件触发词。

图10示意性示出了根据本发明的一个实施例的事件触发词的识别装置的框图。

参照图10所示，所述事件触发词的识别装置800还包括：词性标注模块806、候选触发词集合获取模块807和第二触发词确定模块808。

具体地，词性标注模块806，用于对所述目标文本进行分词获取目标词序列，并对所述目标词序列中的词汇标注词性信息；候选触发词集合获取模块807，用于根据所述词性信息对所述词汇进行筛选，以获取候选触发词集合；第二触发词确定模块808，用于根据所述词汇-主题分布矩阵和所述目标文本的事件类型从所述候选触发词集合中确定所述事件触发词。

图11示意性示出了根据本发明的一个实施例的事件触发词的识别装置的框图。

参照图11所示，所述事件触发词的识别装置800还包括：置信度获取模块809、比较模块810和触发词删除模块811。

具体地，置信度获取模块809，用于根据所述词汇-主题分布矩阵中词汇和主题的相关度获取所述目标文本中的词汇作为事件触发词的置信度；比较模块810，用于将所述置信度与一预设值进行比较，判断是否存在置信度小于所述预设值的事件触发词；触发词删除模块811，用于当判定存在置信度小于所述预设值的目标事件触发词时，删除所述目标事件触发词。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种事件触发词的识别方法，其特征在于，包括：

获取多个文本，对所述文本进行分词和词性标注以根据所有分词词汇形成标有词性信息的词序列，并根据所述文本的事件类型确定所述文本的主题；

对所述标有词性信息的词序列中的命名实体进行匿名操作，仅保留所述命名实体的类型信息，并基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中，所述词汇-主题分布矩阵包括所述词汇、所述主题和所述词汇对应的主题的分布，所述词汇为所述词序列中的词汇，所述主题与所述事件类型相对应；

将目标文本的主题与所述词汇-主题分布矩阵进行匹配，若所述词汇-主题分布矩阵中存在与所述目标文本的主题匹配的匹配主题，则根据所述词汇-主题分布矩阵中词汇对应的主题的分布抽取所述词汇-主题分布矩阵中与所述匹配主题相关度最高的词汇作为所述目标文本中的事件触发词。

2.根据权利要求1所述的事件触发词的识别方法，其特征在于，所述主题包括第一主题和第二主题，所述第一主题为与所述文本中目标事件的触发相关的主题，所述第二主题为与所述目标事件的触发不相关的主题。

3.根据权利要求1所述的事件触发词的识别方法，其特征在于，基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，包括：

将所述文本中的词汇所对应的主题分布限定于所述主题上；

通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵。

4.根据权利要求3所述的事件触发词的识别方法，其特征在于，通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵，包括

通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题；

根据所述目标主题，通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇，其中所述目标主题的分布和所述目标词汇的分布均服从多项式分布；

根据所述目标主题和所述目标词汇确定所述词汇-主题分布矩阵。

5.根据权利要求4所述的事件触发词的识别方法，其特征在于，根据所述目标主题，通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇，包括：

获取所述文本的事件类型的数量，并对所述文本的事件类型进行编号；

根据所述文本中的词汇量确定第一超参数；

根据所述第一超参数确定第一参数，所述第一参数为目标主题-目标词汇的分布的参数；

根据所述目标主题和所述第一参数确定所述目标词汇。

6.根据权利要求4或5所述的事件触发词的识别方法，其特征在于，通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题，包括：

根据所述文本的事件类型确定第二超参数；

根据所述第二超参数确定第二参数，所述第二参数为词汇位置-目标主题的分布的参数；

根据所述词汇位置和所述第二参数确定所述目标主题。

7.根据权利要求1所述的事件触发词的识别方法，其特征在于，将目标文本的主题与所述词汇-主题分布矩阵进行匹配，包括：

根据所述目标文本的事件类型确定所述目标文本的主题；

将所述目标文本的主题与所述词汇-主题分布矩阵进行匹配。

8.根据权利要求1所述的事件触发词的识别方法，其特征在于，所述方法还包括：

对所述目标文本进行分词获取目标词序列，并对所述目标词序列中的词汇标注词性信息；

根据所述词性信息对所述词汇进行筛选，以获取候选触发词集合；

根据所述词汇-主题分布矩阵和所述目标文本的事件类型从所述候选触发词集合中确定所述事件触发词。

9.根据权利要求1所述的事件触发词的识别方法，其特征在于，所述方法还包括：

根据所述词汇-主题分布矩阵中词汇和主题的相关度获取所述目标文本中的词汇作为事件触发词的置信度；

将所述置信度与一预设值进行比较，判断是否存在置信度小于所述预设值的事件触发词；

若判定存在置信度小于所述预设值的目标事件触发词，则删除所述目标事件触发词。

10.一种事件触发词的识别装置，其特征在于，包括：

主题设定模块，用于获取多个文本，对所述文本进行分词和词性标注以根据所有分词词汇形成标有词性信息的词序列，并根据所述文本的事件类型确定所述文本的主题；

模型处理模块，用于对所述标有词性信息的词序列中的命名实体进行匿名操作，仅保留所述命名实体的类型信息，并基于所述主题，通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵，其中所述词汇为所述词序列中的词汇，并且所述主题与所述事件类型相对应，所述词汇-主题分布矩阵包括所述词汇、所述主题和所述词汇对应的主题的分布；

触发词确定模块，用于将目标文本的主题与所述词汇-主题分布矩阵进行匹配，若所述词汇-主题分布矩阵中存在与所述目标文本的主题匹配的匹配主题，则根据所述词汇-主题分布矩阵中词汇对应的主题的分布抽取所述词汇-主题分布矩阵中与所述匹配主题相关度最高的词汇作为所述目标文本中的事件触发词。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～9中任意一项所述的事件触发词的识别方法。