CN109670174A - 一种事件识别模型的训练方法和装置 - Google Patents
一种事件识别模型的训练方法和装置 Download PDFInfo
- Publication number
- CN109670174A CN109670174A CN201811535981.4A CN201811535981A CN109670174A CN 109670174 A CN109670174 A CN 109670174A CN 201811535981 A CN201811535981 A CN 201811535981A CN 109670174 A CN109670174 A CN 109670174A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- vector
- samples
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。该方法包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种事件识别模型的训练方法和装置。
背景技术
事件是一个复杂的概念,对事件进行准确的定义是一个非常困难的问题,学术界和工业界至今为止没有公认的定义。在不同领域的研究中,事件具有不同的定义及表示。在面向新闻文本进行事件识别的场景下,采用自动内容抽取(Automatic ContentExtraction,ACE)为事件给出如下的定义:事件是发生在某个特定时间(时间段)、某个特定地域范围内,由一个或多个角色参与的由一个或多个动作构成的事情或状态的改变。
事件识别的方法可以分为基于模式匹配的方法和基于机器学习的方法。其中,基于模式匹配的方法是指对某种类型事件的识别和抽取是在预设模式的指导下进行的,采用各种模式匹配的算法将待识别的事件和已知的模式进行匹配。模式匹配的过程就是事件识别和抽取的过程。基于模式匹配的方法具有可移植性差、召回率低的缺陷。
现有技术还提供基于机器学习的方法用于事件识别,但是需要通过对触发词的识别来完成。例如,假设需要对文本“潘长江恩师李春明去世”进行事件识别,通过机器学习的方法识别到“去世”是一个死亡事件的触发词,因此判定该文本描述了一个死亡事件。现有技术中需要将触发词的识别建模为词分类的问题。具体地,将给定文本中的每个词作为候选的触发词,并对其进行分类,目标类别需要是预先定义好的事件类型。
现有技术中对事件的识别依赖事件的触发词,因此在模型训练过程中标注数据时,不仅要标注出每个文本的事件类型,还要标注出相应的触发词。由于触发词是文本中最能指示某一事件发生的词,人工挑选触发词的难度大,尤其对于长文本来说,要标注出触发词的难度更大。这大大增加了数据的标注成本,降低了事件识别模型的训练效率。
发明内容
本发明实施例提供了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。
本发明实施例提供以下技术方案:
一方面,本发明实施例提供一种事件识别模型的训练方法,包括:
从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;
通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;
根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;
根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
另一方面,本发明实施例还提供一种事件识别模型的训练装置,包括:
模型输入模块,用于从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;
关注度获取模块,用于通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;
模型输出模块,用于根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;
模型训练模块,用于根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
在前述方面中,事件识别模型的训练装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤,详见前述对前述一方面以及各种可能的实现方式中的说明。
另一方面,本发明实施例提供一种事件识别模型的训练装置,该事件识别模型的训练装置包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得事件识别模型的训练装置执行如前述一方面中任一项的方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
在本发明实施例中,首先从训练数据库中获取到目标事件类型和第一文本样本,并将目标事件类型和第一文本样本输入到初始的事件识别模型中,事件识别模型中配置有注意力层,然后通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,接下来根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果,最后根据事件识别模型输出的关联结果,采用预设的损失函数对事件识别模型进行训练。由于本发明实施例中可以通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,因此通过每个词相对于目标事件类型的关注度信息可以衡量出第一文本样本中每个词对目标事件类型的重要程度,本发明实施例相对于现有技术不依赖触发词的事件识别模型训练,省去了人工挑选触发词的步骤,因此提高了事件识别模型的训练效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种事件识别模型的训练方法的流程方框示意图;
图2为本发明实施例提供的事件识别模型的训练流程示意图;
图3为本发明实施例提供的基于LSTM实现的事件识别模型的网络结构示意图;
图4-a为本发明实施例提供的一种事件识别模型的训练装置的组成结构示意图;
图4-b为本发明实施例提供的模型输入模块的组成结构示意图;
图4-c为本发明实施例提供的命名实体识别子模块的组成结构示意图;
图4-d为本发明实施例提供的关注度获取模块的组成结构示意图;
图4-e为本发明实施例提供的模型输出模块的组成结构示意图;
图5为本发明实施例提供的事件识别模型的训练方法应用于终端的组成结构示意图;
图6为本发明实施例提供的事件识别模型的训练方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明事件识别模型的训练方法的一个实施例,具体可以应用于对事件识别模型的训练场景中,该事件识别模型可以是基于机器学习算法完成的网络模型,该事件识别模型可以从文本中识别出是否包含目标事件类型。例如,本发明实施例提供的事件识别模型可以采用神经网络算法。事件识别模型的输出可以是一个二分类结果,例如该二分类结果可以包括:进行0-1分类得到的结果,其中,0表示文本不包含相应的目标事件类型,1表示文本包含相应的目标事件类型。
现有技术中事件识别模型在训练时,不仅要标注出每个文本的事件类型,还要标注出相应的触发词。为解决现有技术中存在标注触发词的问题。本发明实施例提供一种事件识别模型的训练方法,该事件识别模型的训练方法中不依赖于触发词就可以完成模型训练,提高了事件识别模型的训练效率。
请参阅图1所示,本发明一个实施例提供的事件识别模型的训练方法,可以包括如下步骤:
101、从训练数据库中获取到目标事件类型和第一文本样本,并将目标事件类型和第一文本样本输入到初始的事件识别模型中,事件识别模型中配置有注意力层。
在本发明实施例中,训练数据库用于存储训练数据,本发明实施例中只需要标注出目标事件类型即可,不需要标注出触发词,因此从训练数据库中可以获取到目标事件类型,不需要在训练数据库中存储标注出的触发词,该目标事件类型是预先标注的特定事件类型,举例说明如下,需要从文本中识别出是否包含去世事件,在事件识别模型进行训练时,可以标注出一个文本样本中是否包含去世事件。
在本发明实施例中,从训练数据库中获取到目标事件类型之外,还需要从该训练数据库中获取到用于模型训练的文本样本,将该文本样本定义为第一文本样本。举例说明如下,假设需要对文本“潘长江恩师李春明去世”进行事件识别,事件识别模型需要识别出该文本是否包含“去世”事件,因此需要获取到文本样本,并在该文本样本中标注出目标事件类型为去世事件。
在获取到目标事件类型和第一文本样本之后,预先配置初始的事件识别模型,例如该事件识别模型可以是基于神经网络算法实现的模型。本申请实施例中事件识别模型采用什么样的机器学习算法,该事件识别模型中就配置有该机器学习算法所实现的具体网络层。该事件识别模型中就可以配置有输入层、嵌入(Embedding)层、表示层、输出层等。例如事件识别模型可以是基于长短期记忆(Long Short-Term Memroy,LSTM)神经网络算法实现,该表示层可以采用LSTM神经网络来实现。又如本发明实施例中事件识别模型可以采用循环神经网络(Recurrent Neural Network,RNN),或者可以采用卷积神经网络(Convolutional Neural Network,CNN)。
在本申请实施例中,由于输入到事件识别模型中的标注数据包括有目标事件类型,但是不包括有标注的触发词,为了更好地捕获句子中的关键信息,本发明实施例中事件识别模型可以利用注意力(Attention)机制自动学习和目标事件类型紧密相关的词,为了能够从第一文本样本中识别出事件类型,本发明实施例提供的事件识别模型中配置有注意力(Attention)层。在目标事件类型和第一文本样本输入到初始的事件识别模型之后,通过该事件识别模型进行文本样本的处理,接下来执行步骤102。
在本申请的一些实施例中,步骤101将目标事件类型和第一文本样本输入到初始的事件识别模型中,包括:
A1、根据目标事件类型查询词向量表,得到第一事件类型向量和第二事件类型向量,第一事件类型向量为局部信息建模向量,第二事件类型向量为全局信息建模向量;
A2、从第一文本样本中识别出每个词对应的命名实体类型,并将每个词以及每个词对应的命名实体类型转换为词样本向量;
A3、将第一事件类型向量、第二事件类型向量和词样本向量输入到事件识别模型中。
其中,目标事件类型可以根据功能的不同,转换为两个事件类型向量,使用目标事件类型查询预配置的词向量表,得到第一事件类型向量和第二事件类型向量,第一事件类型向量为局部信息建模向量,即第一事件类型向量可以用于文本中的局部信息的提取,第二事件类型向量为全局信息建模向量,即第二事件类型向量可以用于文本中的全局信息的提取。
步骤A2和步骤A1之前没有时序上的先后顺序,在获取到第一文本样本之后,针对第一文本样本中的每个词进行命名实体识别(Named Entity Recognition,NER),命名实体识别又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,通过命名实体识别可以从第一文本样本中识别出每个词对应的命名实体类型(简称为实体类型),例如该命名实体类型可以包括:人物(用PER表示)、地点(用LOC表示)、非实体(用NA表示)。在识别出每个词对应的命名实体类型之后,将每个词以及每个词对应的命名实体类型转换为词样本向量,该词样本向量中结合有词的信息和该词对应的命名实体类型的信息,因此使用词样本向量能够更准确的描述词表示的信息。
在本申请实施例中,通过前述步骤A1至步骤A2,可以获取到第一事件类型向量、第二事件类型向量和词样本向量,最后可以将第一事件类型向量、第二事件类型向量和词样本向量输入到事件识别模型中,通过该事件识别模型对词样本向量进行事件识别。
进一步的,在本申请的一些实施例中,步骤A2从第一文本样本中识别出每个词对应的命名实体类型,并将每个词以及每个词对应的命名实体类型转换为词样本向量,包括:
A21、对第一文本样本进行分词处理从而得到词序列,词序列包括多个词;
A22、对词序列中的每个词分别进行命名实体识别,得到每个词对应的命名实体类型;
A23、将每个词转换为相应的词向量,并将每个词对应的命名实体类型转换为相应的命名实体类型向量;
A24、将每个词对应的词向量和命名实体类型向量拼接在一起,得到词样本向量。
其中,首先对第一文本样本进行分词处理,该步骤A21可以将第一文本样本转化为词序列,对上述得到的词序列进行命名实体识别,该步骤A22识别出第一文本样本中的命名实体及实体类型,接下来通过事件识别模型的嵌入层对每个词、每个词对应的命名实体类型分别进行向量转换,例如第一文本样本中的词转换为相应的词向量,将每个词对应的命名实体类型转换为相应的命名实体类型向量,最后将每个词对应的词向量和命名实体类型向量拼接在一起,得到词样本向量,其中,向量拼接的方式可以是将命名实体类型向量直接拼接在词向量的右侧,由此构成一个更大维度的词样本向量。该词样本向量中结合有词的信息和该词对应的命名实体类型的信息,因此使用词样本向量能够更准确的描述词表示的信息。
在本申请的一些实施例中,若需要从第一文本样本中提取出多个目标事件类型时,步骤101将目标事件类型和第一文本样本输入到初始的事件识别模型中,包括:
A4、当训练数据库中提取到N个目标事件类型时,获取N个二元组,其中,每个二元组包括:N个目标事件类型的一个目标事件类型和第一文本样本,N的取值为大于或等于2的正整数;
A5、将N个二元组分别输入到事件识别模型中。
其中,第一文本样本中可能会包含多个不同的事件,普通的文本分类只能为一段文本分类得到一个类型,本发明实施例中还可以解决机器学习领域中的多标签问题,本发明实施例中可以将事件识别建模为多个二分类的任务。具体地,将给定的第一文本样本和每一个预定义的目标事件类型构成一个二元组(pair),当训练数据库中提取到N个目标事件类型时可以获取到N个二元组。接下来对每个二元组进行0-1分类,0表示第一文本样本不包含相应的目标类型事件,1表示第一文本样本包含相应的目标类型事件,因此本发明实施例中通过设置N个二元组可以解决多标签的问题。例如,假设一共定义了三个目标事件类型,则可以获取到3个二元组,针对每个二元组都可以按照本发明实施例提供的事件识别模型进行事件识别。
102、通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息。
在本发明实施例中,目标事件类型和第一文本样本输入到初始的事件识别模型,本申请实施例中事件识别模型采用什么样的机器学习算法,该事件识别模型中就配置有该机器学习算法所实现的具体网络层,另外该事件识别模型为了学习和目标事件类型紧密相关的词,还配置有注意力层。该注意力层用于计算第一文本样本中每个词相对于目标事件类型的关注度信息。该关注度信息可以是一个向量,即关注度向量,关注度信息也可以称为重要度信息,通过每个词相对于目标事件类型的关注度信息可以衡量出第一文本样本中每个词对目标事件类型的重要程度。
本发明实施例中事件识别模型的Attention层,根据目标事件类型为每个词计算关注度,事件识别模型会为第一文本样本中的关键词汇会分配更大的权重,因此事件识别模型能够自动学习到第一文本样本中对于事件类型起到重要作用的关键词汇。
在本申请的一些实施例中,在前述执行步骤A1至步骤A3的实现场景下,步骤102通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,包括:
B1、通过事件识别模型对词样本向量进行表示信息提取,得到第一文本样本中每个词对应的词表示向量;
B2、通过注意力层获取第一文本样本中每个词对应的词表示向量和第一事件类型向量之间的关注度信息。
其中,事件识别模型包括表示层,该表示层用于提取词样本向量的表示信息,对于事件识别模型采用的机器学习算法的不同,该表示层可以采用相应的网络结构来实现,例如表示层可以采用LSTM网络来完成表示信息提取,包含表示信息的向量可以称为第一文本样本中每个词对应的词表示向量。表示层输出词表示向量之后,由于第一事件类型向量为局部信息建模向量,接下来使用第一事件类型向量提取词表示向量对第一事件类型向量的关注度信息,例如注意力层可以采用点击运算的方式来提取关注度信息。
进一步的,在本申请的一些实施例中,步骤B1通过事件识别模型对词样本向量进行表示信息提取,得到第一文本样本中每个词对应的词表示向量,包括:
B11、通过事件识别模型中提取到第一文本样本中第t-1个词对应的词表示向量之后,将第一文本样本中第t个词对应的词样本向量输入到事件识别模型中,t为大于或等于1的正整数;
B12、根据第一文本样本中第t-1个词对应的词表示向量,通过事件识别模型对第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到第一文本样本中第t个词对应的词表示向量。
其中,在事件识别模型中可以依次输入有多个词对应的词表示向量,前一个词对应的词表示向量可以用于下一个词表示向量的计算,即事件识别模型的表示层中的表示信息的计算需要迭代完成,例如事件识别模型可以是基于LSTM神经网络算法实现,该表示层可以采用LSTM神经网络来实现。例如在提取到第一文本样本中第t-1个词对应的词表示向量之后,将第一文本样本中第t个词对应的词样本向量输入到事件识别模型中,t为大于或等于1的正整数,接下来根据第一文本样本中第t-1个词对应的词表示向量,通过事件识别模型对第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到第一文本样本中第t个词对应的词表示向量,按照这样的方式可以依次提取到第一文本样本中第t+1个词对应的词表示向量、第t+2个词对应的词表示向量等。
103、根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果。
在本申请实施例中,通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息之后,该事件识别模型可以使用第一文本样本中每个词相对于目标事件类型的关注度信息来确定第一文本样本与目标事件类型的关联结果,事件识别模型可以输出该关联结果。其中,第一文本样本与目标事件类型的关联结果是指通过事件识别模型输出的识别结果。例如事件识别模型的输出可以是一个二分类结果,例如该二分类结果可以包括:进行0-1分类得到的结果,其中,0表示文本不包含相应的目标事件类型,1表示文本包含相应的目标事件类型。
在本申请的一些实施例中,在前述执行步骤B1至步骤B2的实现场景下,步骤103根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果,包括:
C1、按照第一文本样本中每个词对应的词表示向量和第一事件类型向量之间的关注度信息,对第一文本样本中每个词对应的词表示向量进行加权平均计算,得到第一文本样本对应的文本表示向量;
C2、根据第一文本样本对应的文本表示向量和第一事件类型向量获取第一文本样本的局部信息;
C3、根据第一文本样本中最后一个输入事件识别模型的词表示向量和第二事件类型向量获取第一文本样本的全局信息;
C4、对第一文本样本的局部信息和第一文本样本的全局信息进行加权平均计算,得到第一文本样本与目标事件类型的关联结果。
其中,通过前述步骤B2提取到第一文本样本中每个词对应的词表示向量和第一事件类型向量之间的关注度信息之后,以该关注度信息作为权值,对第一文本样本中每个词对应的词表示向量进行加权平均计算,得到第一文本样本对应的文本表示向量,其中,文本表示向量是第一文本样本的整体表示向量,由于第一事件类型向量为局部信息建模向量,接下来使用第一事件类型向量从第一文本样本对应的文本表示向量中提取到第一文本样本的局部信息,第一文本样本的局部信息包括有第一文本样本中对于事件类型起到重要作用的关键信息。在事件识别模型中可以依次输入有多个词对应的词表示向量,由于第二事件类型向量为全局信息建模向量,接下来使用第二事件类型向量从第一文本样本中最后一个输入事件识别模型的词表示向量中提取到第一文本样本的全局信息,第一文本样本的全局信息包括有第一文本样本的全局信息。最后可以对第一文本样本的局部信息和第一文本样本的全局信息进行加权平均计算,对于第一文本样本的局部信息和第一文本样本的全局信息分别采用的权值可以根据实际的模型训练场景来确定,并可以根据模型训练需要来灵活调整该取值,最后可以输出第一文本样本与目标事件类型的关联结果。
104、根据事件识别模型输出的关联结果,采用预设的损失函数对事件识别模型进行训练。
在本发明实施例中,预设损失函数作为事件识别模型的激活函数,针对步骤103中事件识别结果输出的关联结果进行模型训练,例如可以采用随机梯度下降法对模型进行训练,并利用自适应学习率调整规则对事件识别模型的训练过程进行加速,从而提高事件识别模型的训练效率。
通过以上实施例对本发明实施例的描述可知,首先从训练数据库中获取到目标事件类型和第一文本样本,并将目标事件类型和第一文本样本输入到初始的事件识别模型中,事件识别模型中配置有注意力层,然后通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,接下来根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果,最后根据事件识别模型输出的关联结果,采用预设的损失函数对事件识别模型进行训练。由于本发明实施例中可以通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,因此通过每个词相对于目标事件类型的关注度信息可以衡量出第一文本样本中每个词对目标事件类型的重要程度,本发明实施例相对于现有技术不依赖触发词的事件识别模型训练,省去了人工挑选触发词的步骤,因此提高了事件识别模型的训练效率。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
本发明实施例提供的方法适用于事件识别模型的训练,其中,事件识别的任务是从给定的文本中识别出感兴趣的事件,例如该文本可以是新闻文本,后续实施例以新闻文本作为样本对事件识别模型的训练为例进行示例说明。为了减少人工成本,本发明实施例提出的事件识别模型的训练方法是不依赖触发词的事件识别方法,只需要目标事件类型的标注信息,不需要标注出触发词信息,本发明实施例提供的事件识别模型的训练方法不需要标注触发词,省去了人工标触发词的流程,提高了事件识别模型的训练效率。
如图2所示,为本发明实施例提供的事件识别模型的训练流程示意图,整体流程可以包括如下:
步骤1:对标注数据进行预处理操作。
其中,标注数据是指标注了目标事件类型,但是没有标注触发词的训练样本。目标事件类型可以是预定义的事件类型,即需要在确定应用场景的时候完成事件类型预定义,预定义完成之后进行数据标注、模型训练、模型在实际数据中应用。
步骤1主要包括如下过程:
首先,对给定的文本样本进行分词处理,将文本转化为词序列,例如:将文本“潘长江恩师李春明去世”转化如下的词序列:“潘长江”、“恩师”、“李春明”、“去世”。
然后,对上述得到的词序列进行命名实体识别,以识别出文本样本中的命名实体及对应的命名实体类型,其中,命名实体类型可以包括:人物、地点、非实体。例如:
词序列为:“潘长江”、“恩师”、“李春明”、“去世”,对该词序列进行命名实体识别,可以得到如下结果:“潘长江/PER”、“恩师/NA”、“李春明/PER”、“去世/NA”,其中,“PER”表示人物,“NA”表示非实体。NA一般表示非目标类别,在实体识别中表示非实体。
接下来,将上述词序列转换为分类样本。对于一段的文本样本,本发明实施例需要识别出其中的事件类型。该任务可以通过文本分类来解决,若一段文本包含多个不同的事件,按照现有技术,文本分类只能为一段文本分类得到一个类型,本发明实施例可以解决机器学习领域的多标签问题,将事件识别建模为多个二分类的任务。具体地,本发明实施例将给定的文本样本和每一个预定义的事件类型构成二元组pair,对每个pair进行0-1分类,0表示文本不包含相应的目标事件类型,1表示文本包含相应的目标事件类型,从而本发明实施例可以解决多标签的问题。例如,假设本发明实施例一共定义了三个目标事件类型:死亡事件、结婚事件、离婚事件,那么对于上述举例,可以构建得到如下三个二元组<文本,事件>,如下表1所示:
文本 | 事件类型 | 标签(Label) |
潘长江恩师李春明去世 | 结婚 | 0 |
潘长江恩师李春明去世 | 离婚 | 0 |
潘长江恩师李春明去世 | 死亡 | 1 |
步骤2:训练事件识别模型。
如图3所示,为本发明实施例提供的基于LSTM实现的事件识别模型的网络结构示意图。图3所示的事件识别模型的结构可以是一种神经网络模型,本发明实施例提出的事件识别模型的网络结构主要包括:输入层、嵌入层、表示层、注意力层、输出层,接下来对各个层的执行流程进行举例说明。
输入层:该层接收<文本样本、目标事件类型>作为模型的输入。其中,文本样本预先要进行分词和命名实体识别操作。例如,对文本样本进行切词处理和命名实体识别操作,可以得到:词1/PER,词2/NA,词3/NA,词4/LOC。其中,LOC指地点类别,PER指人物类别,NA指非实体类别。例如目标事件类型可以是死亡事件。
嵌入层:该层将输入转换为向量。例如将输入的文本样本中的每个词和每个实体类型分别转换为向量,然后再将这两者转换后的向量拼接在一起,得到词样本向量。查询词向量表,将输入的目标事件类型转换为向量,例如每个事件类型会被转换为两个不同的向量(t1,t2),分别用于捕获不同的信息,其中上述各类向量通过随机初始化获得。
表示层:该层利用一个LSTM网络对输入的文本进行处理,获得词表示向量,该词表示向量为每个词的抽象表示,图3中,H是一个符号,用于表示LSTM层每个单元的输出。
注意力层:现有方法中需要标注触发词作为事件识别的关键信息。而本发明实施例的方法不依赖触发词,没有触发词的信息,通过注意力层,事件识别模型可以自动学习文本样本中对目标事件类型关键的词汇。其中,事件识别模型的注意力层根据目标事件类型为句子中的每个词计算关注度,该关注度可以是重要度,事件识别模型会为关键词汇分配更大的权重,因此事件识别模型能够自动学习关键词汇。
为了达到这一目的,本发明实施例设计了一个注意力层,该层利用事件类型的第一个向量t1和每个词的词表示向量进行点积运算,获得每个词对于目标事件类型的关注度α,例如关注度α可以通过如下公式一计算得到:
其中,hk是第k个词经过LSTM后的表示向量,t1是目标事件类型对应的第一个向量,αk是文本样本中第k个词对于目标事件类型的关注度。最终按照各个词的重要度对文本样本中所有词的词表示向量进行加权平均,获得文本表示向量Satt。
输出层:由图3可知,事件识别模型最终的输出o和两个部分有连接:Vatt和Vglobal,其中,这两者分别通过如下公式进行计算:
Vatt=dot(Satt,t1),
Vglobal=dot(hn,t2)。
其中,dot指向量之间的点积操作。Vatt由Satt计算获得,建模了句子中的关键信息,因为Vatt是由注意力层输出的关注度向量计算得到的,注意力层能够为关键词汇赋予更高的关注度,因此Vatt能够建模关键信息。hn是LSTM最后一个输出,它编码了整个句子的信息,因此Vglobal建模了句子的全局信息。
最终,模型的输出o通过如下公式计算:
o=σ(λ·Vatt+(1-λ)·Vglobal),
其中,λ(0<λ<1)用于调节Vatt和Vglobal的权重,σ是sigmoid函数。
最后对事件识别模型的损失函数进行说明,其中,给定所有的训练样本集{(X(i);y(i))},假设一共有T个,X(i)是输入的第i个文本样本,y(i)是输入的第i个目标事件类型,则事件损失模型的损失函数定义为:
其中,损失函数(Loss function)是用来估量事件识别模型的预测值与真实值的不一致程度,它是一个非负实值函数。损失函数用于指导事件识别模型的训练,模型优化的目标是降低损失函数的值。
最后,采用随机梯度下降法对模型进行训练,并利用自适应学习率调整规则(例如Adadelta规则)对训练过程进行加速。
综上所述,本发明实施例提出了一种不依赖事件触发词的事件识别方法。为了解决多标签的问题,本发明实施例提供的方法将事件识别建模为多个二分类任务;没有了触发词信息,为了更好地捕获句子中的关键信息,利用注意力机制自动学习和目标类型紧密相关的词。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图4-a所示,本发明实施例提供的一种事件识别模型的训练装置400,可以包括:模型输入模块401、关注度获取模块402、模型输出模块403、模型训练模块404,其中,
模型输入模块401,用于从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;
关注度获取模块402,用于通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;
模型输出模块403,用于根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;
模型训练模块404,用于根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
在本发明的一些实施例中,如图4-b所示,所述模型输入模块401,包括:
向量表查询子模块4011,用于根据所述目标事件类型查询词向量表,得到第一事件类型向量和第二事件类型向量,所述第一事件类型向量为局部信息建模向量,所述第二事件类型向量为全局信息建模向量;
命名实体识别子模块4012,用于从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量;
向量输入子模块4013,用于将所述第一事件类型向量、所述第二事件类型向量和所述词样本向量输入到所述事件识别模型中。
进一步的,在本发明的一些实施例中,如图4-c所示,所述命名实体识别子模块4012,包括:
分词单元40121,用于对所述第一文本样本进行分词处理从而得到词序列,所述词序列包括多个词;
实体类型获取单元40122,用于对所述词序列中的每个词分别进行命名实体识别,得到所述每个词对应的命名实体类型;
向量转换单元40123,用于将所述每个词转换为相应的词向量,并将所述每个词对应的命名实体类型转换为相应的命名实体类型向量;
向量拼接单元40124,用于将所述每个词对应的词向量和命名实体类型向量拼接在一起,得到所述词样本向量。
在本发明的一些实施例中,如图4-d所示,所述关注度获取模块402,包括:
信息提取子模块4021,用于通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量;
关注度获取子模块4022,用于通过所述注意力层获取所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息。
进一步的,在本发明的一些实施例中,如图4-e所示,所述模型输出模块403,包括:
第一加权计算子模块4031,用于按照所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息,对所述第一文本样本中每个词对应的词表示向量进行加权平均计算,得到所述第一文本样本对应的文本表示向量;
局部信息获取子模块4032,用于根据所述第一文本样本对应的文本表示向量和所述第一事件类型向量获取所述第一文本样本的局部信息;
全局信息获取子模块4033,用于根据所述第一文本样本中最后一个输入所述事件识别模型的词表示向量和所述第二事件类型向量获取所述第一文本样本的全局信息;
第二加权计算子模块4034,用于对所述第一文本样本的局部信息和所述第一文本样本的全局信息进行加权平均计算,得到所述第一文本样本与所述目标事件类型的关联结果。
在本发明的一些实施例中,所述信息提取子模块4021,用于通过所述事件识别模型中提取到所述第一文本样本中第t-1个词对应的词表示向量之后,将所述第一文本样本中第t个词对应的词样本向量输入到所述事件识别模型中,所述t为大于或等于1的正整数;根据所述第一文本样本中第t-1个词对应的词表示向量,通过所述事件识别模型对所述第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到所述第一文本样本中第t个词对应的词表示向量。
在本发明的一些实施例中,所述模型输入模块401,用于当所述训练数据库中提取到N个所述目标事件类型时,获取N个二元组,其中,每个二元组包括:N个所述目标事件类型的一个目标事件类型和所述第一文本样本,所述N的取值为大于或等于2的正整数;将所述N个二元组分别输入到所述事件识别模型中。
通过以上对本发明实施例的描述可知,首先从训练数据库中获取到目标事件类型和第一文本样本,并将目标事件类型和第一文本样本输入到初始的事件识别模型中,事件识别模型中配置有注意力层,然后通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,接下来根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果,最后根据事件识别模型输出的关联结果,采用预设的损失函数对事件识别模型进行训练。由于本发明实施例中可以通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,因此通过每个词相对于目标事件类型的关注度信息可以衡量出第一文本样本中每个词对目标事件类型的重要程度,本发明实施例相对于现有技术不依赖触发词的事件识别模型训练,省去了人工挑选触发词的步骤,因此提高了事件识别模型的训练效率。
本发明实施例还提供了一种终端,如图5所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(PersonalDigital Assistant,个人数字助理)、POS(Point ofSales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图5示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图5中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图5中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器1080还具有控制执行以上由终端执行的事件识别模型的训练方法流程。
图6是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的事件识别模型的训练方法步骤可以基于该图6所示的服务器结构。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (15)
1.一种事件识别模型的训练方法,其特征在于,包括:
从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;
通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;
根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;
根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,包括:
根据所述目标事件类型查询词向量表,得到第一事件类型向量和第二事件类型向量,所述第一事件类型向量为局部信息建模向量,所述第二事件类型向量为全局信息建模向量;
从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量;
将所述第一事件类型向量、所述第二事件类型向量和所述词样本向量输入到所述事件识别模型中。
3.根据权利要求2所述的方法,其特征在于,所述从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量,包括:
对所述第一文本样本进行分词处理从而得到词序列,所述词序列包括多个词;
对所述词序列中的每个词分别进行命名实体识别,得到所述每个词对应的命名实体类型;
将所述每个词转换为相应的词向量,并将所述每个词对应的命名实体类型转换为相应的命名实体类型向量;
将所述每个词对应的词向量和命名实体类型向量拼接在一起,得到所述词样本向量。
4.根据权利要求2所述的方法,其特征在于,所述通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,包括:
通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量;
通过所述注意力层获取所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果,包括:
按照所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息,对所述第一文本样本中每个词对应的词表示向量进行加权平均计算,得到所述第一文本样本对应的文本表示向量;
根据所述第一文本样本对应的文本表示向量和所述第一事件类型向量获取所述第一文本样本的局部信息;
根据所述第一文本样本中最后一个输入所述事件识别模型的词表示向量和所述第二事件类型向量获取所述第一文本样本的全局信息;
对所述第一文本样本的局部信息和所述第一文本样本的全局信息进行加权平均计算,得到所述第一文本样本与所述目标事件类型的关联结果。
6.根据权利要求4所述的方法,其特征在于,所述通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量,包括:
通过所述事件识别模型中提取到所述第一文本样本中第t-1个词对应的词表示向量之后,将所述第一文本样本中第t个词对应的词样本向量输入到所述事件识别模型中,所述t为大于或等于1的正整数;
根据所述第一文本样本中第t-1个词对应的词表示向量,通过所述事件识别模型对所述第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到所述第一文本样本中第t个词对应的词表示向量。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,包括:
当所述训练数据库中提取到N个所述目标事件类型时,获取N个二元组,其中,每个二元组包括:N个所述目标事件类型的一个目标事件类型和所述第一文本样本,所述N的取值为大于或等于2的正整数;
将所述N个二元组分别输入到所述事件识别模型中。
8.一种事件识别模型的训练装置,其特征在于,包括:
模型输入模块,用于从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;
关注度获取模块,用于通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;
模型输出模块,用于根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;
模型训练模块,用于根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。
9.根据权利要求8所述的装置,其特征在于,所述模型输入模块,包括:
向量表查询子模块,用于根据所述目标事件类型查询词向量表,得到第一事件类型向量和第二事件类型向量,所述第一事件类型向量为局部信息建模向量,所述第二事件类型向量为全局信息建模向量;
命名实体识别子模块,用于从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量;
向量输入子模块,用于将所述第一事件类型向量、所述第二事件类型向量和所述词样本向量输入到所述事件识别模型中。
10.根据权利要求9所述的装置,其特征在于,所述命名实体识别子模块,包括:
分词单元,用于对所述第一文本样本进行分词处理从而得到词序列,所述词序列包括多个词;
实体类型获取单元,用于对所述词序列中的每个词分别进行命名实体识别,得到所述每个词对应的命名实体类型;
向量转换单元,用于将所述每个词转换为相应的词向量,并将所述每个词对应的命名实体类型转换为相应的命名实体类型向量;
向量拼接单元,用于将所述每个词对应的词向量和命名实体类型向量拼接在一起,得到所述词样本向量。
11.根据权利要求9所述的装置,其特征在于,所述关注度获取模块,包括:
信息提取子模块,用于通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量;
关注度获取子模块,用于通过所述注意力层获取所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息。
12.根据权利要求11所述的装置,其特征在于,所述模型输出模块,包括:
第一加权计算子模块,用于按照所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息,对所述第一文本样本中每个词对应的词表示向量进行加权平均计算,得到所述第一文本样本对应的文本表示向量;
局部信息获取子模块,用于根据所述第一文本样本对应的文本表示向量和所述第一事件类型向量获取所述第一文本样本的局部信息;
全局信息获取子模块,用于根据所述第一文本样本中最后一个输入所述事件识别模型的词表示向量和所述第二事件类型向量获取所述第一文本样本的全局信息;
第二加权计算子模块,用于对所述第一文本样本的局部信息和所述第一文本样本的全局信息进行加权平均计算,得到所述第一文本样本与所述目标事件类型的关联结果。
13.根据权利要求11所述的装置,其特征在于,所述信息提取子模块,用于通过所述事件识别模型中提取到所述第一文本样本中第t-1个词对应的词表示向量之后,将所述第一文本样本中第t个词对应的词样本向量输入到所述事件识别模型中,所述t为大于或等于1的正整数;根据所述第一文本样本中第t-1个词对应的词表示向量,通过所述事件识别模型对所述第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到所述第一文本样本中第t个词对应的词表示向量。
14.根据权利要求8至13中任一项所述的装置,其特征在于,所述模型输入模块,用于当所述训练数据库中提取到N个所述目标事件类型时,获取N个二元组,其中,每个二元组包括:N个所述目标事件类型的一个目标事件类型和所述第一文本样本,所述N的取值为大于或等于2的正整数;将所述N个二元组分别输入到所述事件识别模型中。
15.一种事件识别模型的训练装置,其特征在于,所述事件识别模型的训练装置包括:处理器和存储器;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中的所述指令,执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535981.4A CN109670174B (zh) | 2018-12-14 | 2018-12-14 | 一种事件识别模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535981.4A CN109670174B (zh) | 2018-12-14 | 2018-12-14 | 一种事件识别模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670174A true CN109670174A (zh) | 2019-04-23 |
CN109670174B CN109670174B (zh) | 2022-12-16 |
Family
ID=66143901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811535981.4A Active CN109670174B (zh) | 2018-12-14 | 2018-12-14 | 一种事件识别模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670174B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111414736A (zh) * | 2020-03-23 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 故事生成模型训练方法、装置、设备及存储介质 |
CN112036169A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN112035668A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN112073582A (zh) * | 2020-09-09 | 2020-12-11 | 中国海洋大学 | 基于触摸行为序列的智能手机使用情境识别方法 |
CN112101023A (zh) * | 2020-10-29 | 2020-12-18 | 深圳市欢太科技有限公司 | 文本处理方法、装置以及电子设备 |
CN112766903A (zh) * | 2021-01-18 | 2021-05-07 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN114706992A (zh) * | 2022-02-17 | 2022-07-05 | 中科雨辰科技有限公司 | 一种基于知识图谱的事件信息处理系统 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034096A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 基于自顶向下运动注意机制的视频事件识别方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN108563655A (zh) * | 2017-12-28 | 2018-09-21 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
-
2018
- 2018-12-14 CN CN201811535981.4A patent/CN109670174B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034096A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 基于自顶向下运动注意机制的视频事件识别方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN108563655A (zh) * | 2017-12-28 | 2018-09-21 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
Non-Patent Citations (3)
Title |
---|
SHULIN LIU ET AL.: "Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
YUE ZHAO ET AL.: "Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
秦彦霞 等: "神经网络事件抽取技术综述", 《智能计算机与应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111046656B (zh) * | 2019-11-15 | 2023-07-14 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111414736A (zh) * | 2020-03-23 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 故事生成模型训练方法、装置、设备及存储介质 |
CN112036169B (zh) * | 2020-09-02 | 2023-06-20 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN112035668A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN112036169A (zh) * | 2020-09-02 | 2020-12-04 | 深圳前海微众银行股份有限公司 | 事件识别模型优化方法、装置、设备及可读存储介质 |
CN112035668B (zh) * | 2020-09-02 | 2024-09-20 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN112073582A (zh) * | 2020-09-09 | 2020-12-11 | 中国海洋大学 | 基于触摸行为序列的智能手机使用情境识别方法 |
CN112101023A (zh) * | 2020-10-29 | 2020-12-18 | 深圳市欢太科技有限公司 | 文本处理方法、装置以及电子设备 |
CN112766903A (zh) * | 2021-01-18 | 2021-05-07 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN112766903B (zh) * | 2021-01-18 | 2024-02-06 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN114706992A (zh) * | 2022-02-17 | 2022-07-05 | 中科雨辰科技有限公司 | 一种基于知识图谱的事件信息处理系统 |
CN115757775A (zh) * | 2022-11-05 | 2023-03-07 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
CN115757775B (zh) * | 2022-11-05 | 2023-10-27 | 内蒙古大学 | 基于文本蕴含的无触发词文本事件检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109670174B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670174A (zh) | 一种事件识别模型的训练方法和装置 | |
CN110009052B (zh) | 一种图像识别的方法、图像识别模型训练的方法及装置 | |
CN109241431A (zh) | 一种资源推荐方法和装置 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN109903314A (zh) | 一种图像区域定位的方法、模型训练的方法及相关装置 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN111816159B (zh) | 一种语种识别方法以及相关装置 | |
CN111914113B (zh) | 一种图像检索的方法以及相关装置 | |
CN104239535A (zh) | 一种为文字配图的方法、服务器、终端及系统 | |
CN110069715A (zh) | 一种信息推荐模型训练的方法、信息推荐的方法及装置 | |
CN110166828A (zh) | 一种视频处理方法和装置 | |
CN111222563B (zh) | 一种模型训练方法、数据获取方法以及相关装置 | |
CN114724643B (zh) | 一种多肽化合物的筛选方法以及相关装置 | |
CN107977431A (zh) | 图像处理方法、装置、计算机设备和计算机可读存储介质 | |
CN109145809A (zh) | 一种记谱处理方法和装置以及计算机可读存储介质 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN113723159A (zh) | 场景识别模型训练方法、场景识别方法及模型训练装置 | |
CN110347858A (zh) | 一种图片的生成方法和相关装置 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN111738000B (zh) | 一种短语推荐的方法以及相关装置 | |
CN110276010A (zh) | 一种权重模型训练方法和相关装置 | |
CN110059753A (zh) | 模型训练方法、层间隔识别方法、装置、设备及介质 | |
CN111651604A (zh) | 基于人工智能的情感分类方法和相关装置 | |
CN114862488A (zh) | 一种资源消耗异常对象的识别方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |