CN110765265B

CN110765265B - 信息分类抽取方法、装置、计算机设备和存储介质

Info

Publication number: CN110765265B
Application number: CN201910844517.1A
Authority: CN
Inventors: 刘康龙; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-04-11
Anticipated expiration: 2039-09-06
Also published as: WO2021042503A1; CN110765265A

Abstract

本申请涉及基于分类器的一种信息分类抽取方法、装置、计算机设备和存储介质。所述方法包括：获取待分类信息；对待分类信息进行分词处理，得到多个文本块；将多个文本块输入至已训练的分类器，对多个文本块进行分类，确定待分类信息的目标事件类别和多个事件元素；根据目标事件类别和事件元素提取对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数；根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。采用本方法能够够准确有效地对事件信息进行分类并抽取关键事件信息。

Description

信息分类抽取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种信息分类抽取方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的迅速发展，世界各地随时可能会发生一些新闻事件，其中一些新闻事件信息具有重要的研究价值。通过人为去获取事件信息中的一些关键信息带来的工作量太大，因此出现了一些从自然语言文本中提取关键事件信息的方式。

现有的方式大多数利用各种特征引入记忆向量和矩阵，引入更多的过渡弧，使用句子级顺序RNN建模方式和CRF算法来保留更多的上下文信息。还有的方式是采用在文档级中寻求特征。而句子级顺序建模方式在捕获非常远距离依赖效率低下，基于特征的方式需要繁重的人工干预，很大程度上影响了模型的性能，无法准确有效地对事件进行关联建模，事件信息的识别和分类准确性不高。因此，如何准确有效地对事件信息进行分类并抽取关键信息成为目前需要解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确有效地对事件信息进行分类并抽取关键事件信息的信息分类抽取方法、装置、计算机设备和存储介质。

一种信息分类抽取方法，所述方法包括：

获取待分类信息；

对待分类信息进行分词处理，得到多个文本块；

将所述多个文本块输入至已训练的分类器，对多个文本块进行分类，确定所述待分类信息的目标事件类别和多个事件元素；

根据所述目标事件类别和事件元素提取对应的事件元素参数，并输出所述目标事件类别和多个事件元素以及相应的事件元素参数；

根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。

在其中一个实施例中，所述待分类信息包括标题信息，所述对待分类信息进行分词处理的步骤包括：根据所述标题信息匹配获取对应的定义表；根据所述定义表对所述待分类信息进行词性标注，并根据词性标签进行分词，得到多个文本块；根据分词后的多个文本块的词性标签对多个文本块标记优先等级；删除所述优先等级未达到预设等级值的文本块，利用优先等级达到预设等级值的文本块得到过滤后的文本块。

在其中一个实施例中，所述分类器包括多个网络层，所述对多个文本块进行分类的步骤包括：将所述多个文本块输入至所述分类器，通过所述分类器的输入层提取出多个文本块对应的文本向量；将多个文本向量作为关系分析网络层的输入，通过所述关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果；将所述第一提取结果作为图卷积网络层的输入，通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取多个文本向量的依赖关系，得到第二提取结果；将所述第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果；将所述第三提取结果输入至分类层，通过所述分类层对所述第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

在其中一个实施例中，所述通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取文本向量的依赖关系的步骤，包括：根据所述多个文本向量生成相应的多个文本块节点，并将多个文本块节点转换为相应的多个图节点；通过所述图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧表示；通过所述图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征；根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

在其中一个实施例中，在对多个文本块进行分类之前，还包括：获取多个样本数据，将所述样本数据分为训练集和验证集；获取预设的神经网络模型，利用所述训练集中的训练样本数据对所述神经网络模型进行训练，得到初始分类器；将所述验证集中的验证数据输入至所述初始分类器，利用验证集对初始分类器进行进一步训练和验证，得到多个验证数据对应的类别概率；直到所述验证数据对应的类别概率在预设范围内的数量达到预设阈值时，停止训练，得到所需的分类器。

在其中一个实施例中，所述根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据，包括：根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息；对多个元素节点和相应的节点信息进行关联性分析，得到多个元素节点的关联关系；根据所述关联关系对多个元素节点进行映射与合并，通过节点链接技术将多个元素节点进行关联连接；根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。

一种信息分类抽取装置，所述装置包括：

数据获取模块，用于获取待分类信息；

分词处理模块，用于对待分类信息进行分词处理，得到多个文本块；

分类抽取模块，用于将所述多个文本块输入至已训练的分类器，对多个文本块进行分类，确定所述待分类信息的目标事件类别和多个事件元素；根据所述目标事件类别和事件元素提取对应的事件元素参数，并输出所述目标事件类别和多个事件元素以及相应的事件元素参数；

事件图谱生成模块，用于根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。

在其中一个实施例中，所述分类抽取模块还用于将所述多个文本块输入至所述分类器，通过所述分类器的输入层提取出多个文本块对应的文本向量；将多个文本向量作为关系分析网络层的输入，通过所述关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果；将所述第一提取结果作为图卷积网络层的输入，通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取多个文本向量的依赖关系，得到第二提取结果；将所述第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果；将所述第三提取结果输入至分类层，通过所述分类层对所述第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的信息分类抽取方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的信息分类抽取方法的步骤。

上述信息分类抽取方法、装置、计算机设备和存储介质，服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类，由此可以确定待分类信息的目标事件类别和待分类信息中包含的多个事件元素。服务器则进一步根据多个事件元素识别出对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数，从而能够准确有效地对待分类信息进行分类，并有效地抽取出待分类信息中包含的事件信息。服务器进而根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据，从而能够有效地对分类抽取后的事件信息进行进一步利用和处理。通过基于自注意力网络的分类器对待分类信息进行关联关系分析和事件分析，从而能够准确有效地识别并抽取出信息中事件类别和事件信息。

附图说明

图1为一个实施例中信息分类抽取方法的应用场景图；

图2为一个实施例中信息分类抽取方法的流程示意图；

图3为一个实施例中对多个文本块进行分类步骤的流程示意图；

图4为另一个实施例中对多个文本块进行分类步骤的流程示意图；

图5为一个实施例中信息分类抽取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的信息分类抽取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以向服务器104 发送信息分类请求，服务器104获取终端102发送的待分类信息，对待分类信息进行分词处理，得到多个文本块；将多个文本块输入至已训练的分类器，对多个文本块进行分类，确定待分类信息的目标事件类别和多个事件元素；根据目标事件类别和事件元素提取对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数；根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。服务器104还可以将事件图谱数据推送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种信息分类抽取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待分类信息。

其中，待分类信息可以为自然语言文本信息，例如可以是新闻信息。服务器可以获取用户终端发送的待分类信息，也可以利用网络爬虫技术从第三方网站或第三方平台的数据库中获取待分类信息。

步骤204，对待分类信息进行分词处理，得到多个文本块。

服务器获取待分类信息后，对待分类信息进行分词处理。具体地，服务器可以首先对待分类信息中的多个词汇和标点符号进行词性标注。服务器进而获取预设的语料词库，语料词库中包括了大料的常用词汇和特定词汇以及相应的词向量。服务器则将待分类文本与语料词库中的多个词汇进行匹配，根据匹配后的词汇对待分类信息进行分词，得到多个文本信息。

进一步地，待分类信息中包括了一些不必要的标点或词汇等。服务器对待分类信息进行分词后，还可以对分词后的文本信息进行数据清洗。具体地，服务器得到多个文本信息后，根据预设的词性标签对多个词汇进行过滤，提取出相应的文本词汇，得到多个文本块。从而有效地对待分类信息中不清楚或不必要的词汇和标点进行过滤。

步骤206，将多个文本块输入至已训练的分类器，对多个文本块进行分类，确定待分类信息的目标事件类别和多个事件元素。

步骤208，根据目标事件类别和事件元素提取对应的事件元素参数。

其中，事件是指关于信息主题的一组相关描述，这个主题可以是由分类或聚类形成的。组成事件的各元素可以包括:触发词、事件类别、论元及论元角色。目标事件类别可以表示待分类信息所属的信息领域的类型，事件元素可以为待分类信息中所包含的多个事件的事件类别标签。

其中，分类器可以是服务器预先利用大量训练数据进行训练后构建的分类模型。分类器可以是基于自注意力网络的事件分类抽取模型。分类器可以包括多个网络层结构，例如，可以包括输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。

服务器对待分类信息进行分词处理，得到多个文本块后，则将多个文本块输入至已训练的分类器中，通过分类器提取出多个文本块对应的文本向量以及文本块的局部特征，并分析出文本向量的上下信息。服务器进一步提取文本向量对应的句法图的局部特征，并通过自注意力网络分析出多个文本向量的权重以及关联关系。服务器进而根据多个文本向量的权重以及关联关系确定待分类信息的目标事件类别和多个事件元素。

服务器进而根据目标事件类别和事件元素提取对应的事件元素参数，并通过分类器的输出层输出目标事件类别和事件元素以及相应的事件元素参数。

步骤210，根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱。

服务器通过分类器识别并抽取出待分类信息中的目标事件类别，以及多个事件元素和相应的事件元素参数后，还可以根据多个事件元素和相应的事件元素参数建立对应的知识图谱数据，从而使得服务器能够有效地对分类抽取后的事件信息进行进一步利用和处理。通过基于自注意力网络的分类器对待分类信息进行关联关系分析和事件分析，从而对文本信息进行关键事件信息分类和抽取，由此能够有效提高事件信息的分类准确性。

举例说明，待分类信息可以为新闻报道信息，服务器可以从网页中获取一个新闻报道信息。服务器根据标题类别对新闻报道信息进行分词处理，得到多个文本块。服务器进而通过分类器对分词后的多个文本块进行特征提取，并进行上下文分析和语义语境分析，进而进行分类。分类的结果可以包括目标事件类别和事件元素，其中目标事件类别可以是金融事件，事件元素可以包括多种事件元素类别，包括但不限于事件触发者、事件发生时间、事件发生地、事件参与者、事件触发原因、事件结论等。服务器进而提取出多个事件元素和相应的事件元素参数。服务器通过分类器对待分类信息进行关联关系分析和事件分析，分类抽取出文本信息中的事件类别和多个事件元素信息后，并利用抽取出的多个事件元素信息生成对应的事件图谱数据，由此能够有效地从文本信息中提取关键的事件信息，以有效地对提取的事件元素信息进一步利用。

上述信息分类抽取方法中，服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类，由此可以确定待分类信息的目标事件类别和待分类信息中包含的多个事件元素。服务器则进一步根据多个事件元素识别出对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数，从而能够准确有效地对待分类信息进行分类，并有效地抽取出待分类信息中包含的事件信息。服务器进而根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据，从而能够有效地对分类抽取后的事件信息进行进一步利用和处理。通过基于自注意力网络的分类器对待分类信息进行关联关系分析和事件分析，从而能够准确有效地识别并抽取出信息中事件类别和事件信息。

在一个实施例中，待分类信息包括标题信息，对待分类信息进行分词处理的步骤包括：根据标题信息匹配获取对应的定义表；根据定义表对待分类信息进行词性标注，并根据词性标签进行分词，得到多个文本块；根据分词后的多个文本块的词性标签对多个文本块标记优先等级；删除优先等级未达到预设等级值的文本块，利用优先等级达到预设等级值的文本块得到过滤后的文本块。

其中，待分类信息中还可以包括标题信息，标题信息指标明文章、作品等信息内容的简短语句。例如，当待分类信息为新闻信息时，新闻信息中还可以包括标题信息，即新闻标题。

定义表中存储了特定领域的语料词库，定义表中还定义了多种词性标签的重要程度。

服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。具体地，服务器可以识别标题信息对应的信息领域，根据主题信息的领域获取相匹配的定义表。进而根据定义表中的领域语料词库对待分类信息进行分词。具体地，服务器可以根据定义表中的领域语料词库对待分类信息中的多个文本词汇和标点字符进行词性标注，对多个文本词汇添加相应的词性标签，并根据词性标签进行分词，从而得到多个文本块。文本块可以包括一个或多个词汇。其中，词汇可以包括字、词汇、短语或标点符号等。

服务器进一步根据对分词后的多个文本块标记优先等级，具体地，可以根据定义表中预先定义的词性标签对应的重要程度对多个文本块标记相应的优先等级。服务器进而删除优先等级未达到预设等级值的文本块，并利用优先等级达到预设等级值的文本块得到过滤后的文本块。例如，服务器可以预先设置等级值，当文本块的优先等级没有达到预设的等级值时，表示该文本块是不必要的词汇或不清楚的词汇或文本，服务器则删除未达到预设等级值的文本块，以对文本和词汇进行过滤，剩下的达到了预设等级值的词汇则是过滤后的文本块。由此可以有效地过滤掉不清楚的词汇和与不干涉语义的词汇。由此可以有效地过滤掉待分类信息中不必要的文本，从而能够有效提高对待分类信息分词的准确性，进而能够有效提高待分类信息的分类准确率。

在一个实施例中，如图3所示，分类器包括多个网络层，对多个文本块进行分类的步骤，具体包括以下内容：

步骤302，将多个文本块输入至分类器，通过分类器的输入层提取出多个文本块对应的文本向量。

步骤304，将多个文本向量作为关系分析网络层的输入，通过关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果。

步骤306，将第一提取结果作为图卷积网络层的输入，通过图卷积网络层将文本向量转换为句法图结构，根据句法图结构提取多个文本向量的依赖关系，得到第二提取结果。

步骤308，将第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特征和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果。

步骤310，将第三提取结果输入至分类层，通过分类层对第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

其中，分类器可以是服务器预先利用大量训练数据进行训练后构建的分类模型。分类器可以是基于自注意力网络的事件分类抽取模型。分类器可以包括多个网络层结构，例如，可以包括输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。其中，输入层用于对输入的文本块进行特征向量提取；关系分析网络层可以是双向长短期记忆网络，用于提取多个文本向量的上下文特征；图卷积网络层用于将文本向量转换为句法图结构，并提取句法图的依赖关系；自注意力网络层用于识别多个事件元素和多个事件元素之间的关联关系；分类层用于识别待分类信息的类别以及事件元素和对应的参数内容。

服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类。具体地，服务器将多个文本块输入至分类器中，分类器的输入层则对多个文本块进行特征提取，将多个文本块转换为对应的文本向量。输入层则将多个文本向量作为关系分析网络层的输入，将多个文本向量传递至关系分析层。关系分析网络层则对多个文本向量进行特征识别，并分析多个文本向量之间的上下文关系，并提取出多个文本向量的上下文特征，根据提取的上下文特征生成第一提取结果。关系分析网络层得到第一提取结果后，则将第一提取结果作为图卷积网络层的输入，将第一提取结果传递至图卷积网络层。

图卷积网络层进而将多个文本向量转换为句法图结构。其中，句法图结构可以是基于语法快捷方式弧的句法图形网络。图卷积网络层进而根据句法图结构提取多个文本向量的依赖关系，并将提取的多个文本向量的依赖关系作为第二提取结果。图卷积网络层则将第二提取结果作为自注意力网络的输入，将第二提取结果传递至自注意力网络层中。

其中，第二提取结果中包括多个文本向量的上下文特征和依赖关系_。自注意力网络层则进一步根据多个文本向量的上下文特征和依赖关系进行关联分析，提取出多个事件元素，并计算出多个事件元素的关联关系和权重，自注意力网络层利用分析得到的多个事件元素的关联关系和权重生成第三提取结果_。自注意力网络层则将第三提取结果作为分类层的输入，将第三提取结果传递至分类层_。

分类层则根据多个事件元素的关联关系和权重识别待分类信息的事件类别，同时根据多个事件元素的关联关系和权重识别出多个事件元素的元素类别，得到多个类别的事件元素。事件元素可以包括元素类别标签。分类层进一步根据多个事件元素的关联关系和权重识别出每个事件元素对应的事件元素内容。其中，事件元素内容可以表示为事件元素对应的事件元素参数。分类层进而将事件类别，以及多个事件元素和相应的事件元素参数生成分类结果，并将分类结果传递至输出层。输出层对分类结果按照预设方式对分类结果进行加权后输出。通过基于图卷积和自注意力网络的事件分类模型对事件信息进行关联关系分析，从而对事件信息进行关键信息抽取和分类，由此能够有效提高事件信息的分类准确性。

在一个实施例中，如图4所示，通过图卷积网络层将文本向量转换为句法图结构，根据句法图结构提取文本向量的局部特征的步骤，具体包括以下内容：

步骤402，根据多个文本向量生成相应的多个文本块节点，并将多个文本块节点转换为相应的多个图节点。

步骤404，通过图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧表示。

步骤406，通过图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征。

步骤408，根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

其中，图卷积网络层中部署了依赖性解析树和图形轮廓网络，依赖性解析树用于解析文本块之间的依赖关系，图形轮廓网络用于分析图节点之间的依赖关系。

服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类。具体地，服务器将多个文本块输入至分类器中，通过分类器的输入层提取出多个文本块对应的文本向量。将多个文本向量作为关系分析网络层的输入，通过关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果。将第一提取结果作为图卷积网络层的输入，通过图卷积网络层将文本向量转换为句法图结构，根据句法图结构提取文本向量的局部特征，得到第二提取结果。

具体地，图卷积网络层根据多个文本向量生成对应的多个文本块节点，并利用多个文本块节点生成对应的句法图结构。通过图卷积网络层中的依赖性解析树解析出每个文本向量对应的快捷弧表示，图卷积网络层中的图形轮廓网络则进一步分析多个图节点的语义特征和语境特征，进而根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

例如，图卷积网络层可以通过引入句法快捷弧来增强信息流和基于注意力的图形轮廓网络来模拟图形信息，可以采用图卷积网络(GCN)来通过图节点中直接相邻的代表向量来学习每个节点的句法上下文特征，然后进一步学习出每个文本向量的语境特征，从而根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

图卷积网络层提取出多个文本向量的依赖关系后，则利用多个文本向量的依赖关系生成第二提取结果。将第二提取结果作为自注意力网络层的输入，自注意力网络层根据文本向量的局部特征和上下文特征分析多个文本向量的关联关系和权重，生成第三提取结果。将第三提取结果输入至分类层，通过分类层对第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。通过基于图卷积和自注意力网络的事件分类模型对事件信息进行关联关系分析，从而对事件信息进行关键信息抽取和分类，由此能够有效提高事件信息的分类准确性。

在一个实施例中，在对多个文本块进行分类之前，还需要预先构建分类器，具体包括：获取多个样本数据，将样本数据分为训练集和验证集；获取预设的分类模型，利用训练集中的训练样本数据对分类模型进行训练，得到初始分类器；将验证集中的验证数据输入至初始分类器，利用验证集对初始分类器进行进一步训练和验证，得到多个验证数据对应的类别概率；直到验证数据对应的类别概率在预设范围内的数量达到预设阈值时，停止训练，得到所需的分类器。

服务器在获取待分类信息对待分类信息进行分类之前，还需要预先训练和构建出分类器。

服务器可以预先从本地数据库或第三方数据库中获取大量的样本数据，并将大量的样本数据生成训练集和验证集。其中，训练集中的样本数据可以是经过人工标注后的样本数据，例如，样本数据中已经标注了事件类别和多个事件元素以及相应的事件元素参数。

服务器首先对训练集中的训练样本数据进行数据清洗和数据预处理，具体地，服务器对训练样本数据对应的多个字段数据进行向量化，得到多个文本数据对应的特征向量，并将特征向量转换为对应的特征变量。服务器进一步对特征变量进行衍生处理，得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。

服务器进而采用预设的聚类算法对训练集数据对应的特征变量进行聚类分析。例如，预设的聚类算法可以为k-means(k-均值算法)聚类的方法。服务器通过对特征变量进行多次聚类后得到多个聚类结果_。服务器并根据预设算法计算多个特征变量之间的相似度，提取出相似度达到预设阈值的特征变量_。

服务器则获取预设的机器学习模型，例如可以是基于自注意力网络机器学习模型_。例如，机器学习模型中包括多个神经网络模型，神经网络模型可以包括预设的输入层、输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层_。神经网络模型的网络层可以包括激活函数以及偏差损失函数，例如通过LSTM层输出的完全连接人工神经网络也包括对应的激活函数_。图卷积网络层还可以引入语法快捷方式弧以增强信息流，并调整图形转换网络以捕获信息增强的表示_。神经网络模型中还包括确定误差的计算方式，例如可以采用均方误差算法；还包括确定权重参数的迭代更新方式，例如可以采用RMSprop算法。神经网络模型中还可以包括一层普通的神经网络层，用于输出结果的降维。

服务器获取预设的神经网络模型后，则将训练集中的训练样本数据输入至神经网络模型中进行学习和训练，通过学习训练样本数据中已标注的事件类别和多个事件元素以及事件元素参数的依赖关系和关联关系等。服务器通过对训练集中的大量训练样本数据进行训练后，可以得到得到多个特征变量对应的特征维度值和权重，进而根据多个特征变量对应的特征维度值和权重构建初始分类器。

服务器得到初始分类器后，获取验证集，将验证集中的验证数据输入至初始分类器进行进一步训练和验证，得到多个验证数据对应的类别概率。直到验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，进而得到训练完成的分类器。通过对大量的样本数据进行训练和学习，进而能够有效构建出预测准确率较高的分类器，从而有效提高了信息的分类准确率，从而能够准确有效地抽取出待分类信息中的事件信息。

在一个实施例中，根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据的步骤，包括：根据事件元素和事件元素参数生成对应的多个元素节点和节点信息；对多个元素节点和相应的节点信息进行关联性分析，得到多个元素节点的关联关系；根据关联关系对多个元素节点进行映射与合并，通过节点链接技术将多个元素节点进行关联连接；根据连接的多个元素节点和相应的节点信息生成目标事件类别对应的事件图谱数据。

服务器获取待分类信息后，对待分类信息进行分词处理，得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类，由此可以确定待分类信息的目标事件类别和待分类信息中包含的多个事件元素。服务器则进一步根据多个事件元素识别出对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数，从而能够准确有效地对待分类信息进行分类，并有效地抽取出待分类信息中包含的事件信息。

服务器进而根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。具体地，服务器根据事件元素和事件元素参数生成对应的多个元素节点和节点信息，并对多个元素节点和相应的节点信息进行关联性分析，得到多个元素节点的关联关系。服务器进而根据关联关系对多个元素节点进行映射与合并。例如，服务器可以节点为主体目标对不同来源的数据进行映射与合并，通过数据属性描述不同数据对于的节点，利用关系描述各个元素节点之间的关联关系。服务器并通过节点链接技术将多个元素节点进行关联连接。服务器则可以根据连接的多个元素节点和相应的节点信息有效地生成目标事件类别对应的事件图谱数据。例如，服务器可以通过节点链接技术将节点的多种类型数据进行关联存储，利用图数据库将原本没有联系的数据连通，将离散的数据进行整合；通过对多个事件节点进行抽取、转换、加载等预处理，进而将元素节点和节点信息转换为对应的事件图谱数据，由此能够有效地生成事件信息对应的事件图谱数据。通过不同知识的关联性形成网状结构的知识图谱，能够有效地提取出事件之间的关联关系，从而提供更有价值的决策支持，以对相关事件进行有效分析。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种信息分类抽取装置，包括：数据获取模块502、分词处理模块504、分类抽取模块506和事件图谱生成模块508，其中：

数据获取模块502，用于获取待分类信息；

分词处理模块504，用于对待分类信息进行分词处理，得到多个文本块；

分类抽取模块506，用于将多个文本块输入至已训练的分类器，对多个文本块进行分类，确定待分类信息的目标事件类别和多个事件元素；根据目标事件类别和事件元素提取对应的事件元素参数，并输出目标事件类别和多个事件元素以及相应的事件元素参数；

事件图谱生成模块508，用于根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。

在一个实施例中，待分类信息包括标题信息，分词处理模块504还用于根据标题信息匹配获取对应的定义表；根据定义表对待分类信息进行词性标注，并根据词性标签进行分词，得到多个文本块；根据分词后的多个文本块的词性标签对多个文本块标记优先等级；删除优先等级未达到预设等级值的文本块，利用优先等级达到预设等级值的文本块得到过滤后的文本块。

在一个实施例中，分类器包括多个网络层，分类抽取模块506还用于将多个文本块输入至分类器，通过分类器的输入层提取出多个文本块对应的文本向量；将多个文本向量作为关系分析网络层的输入，通过关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果；将第一提取结果作为图卷积网络层的输入，通过图卷积网络层将文本向量转换为句法图结构，根据句法图结构提取多个文本向量的依赖关系，得到第二提取结果；将第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果；将第三提取结果输入至分类层，通过分类层对第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

在一个实施例中，分类抽取模块506还用于根据多个文本向量生成相应的多个文本块节点，并将多个文本块节点转换为相应的多个图节点；通过图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧表示；通过图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征；根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

在一个实施例中，该装置还包括分类器构建模块，用于获取多个样本数据，将样本数据分为训练集和验证集；获取预设的神经网络模型，利用训练集中的训练样本数据对神经网络模型进行训练，得到初始分类器；将验证集中的验证数据输入至初始分类器，利用验证集对初始分类器进行进一步训练和验证，得到多个验证数据对应的类别概率；直到验证数据对应的类别概率在预设范围内的数量达到预设阈值时，停止训练，得到所需的分类器。

在一个实施例中，事件图谱生成模块508还用于根据事件元素和事件元素参数生成对应的多个元素节点和节点信息；对多个元素节点和相应的节点信息进行关联性分析，得到多个元素节点的关联关系；根据关联关系对多个元素节点进行映射与合并，通过节点链接技术将多个元素节点进行关联连接；根据连接的多个元素节点和相应的节点信息生成目标事件类别对应的事件图谱数据。

关于信息分类抽取装置的具体限定可以参见上文中对于信息分类抽取方法的限定，在此不再赘述。上述信息分类抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类信息、样本数据、事件元素信息、事件图谱数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的信息分类抽取方法的步骤。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的信息分类抽取方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信息分类抽取方法，所述方法包括：

获取待分类信息；

对待分类信息进行分词处理，得到多个文本块；

根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据；

所述分类器包括多个网络层，所述对多个文本块进行分类的步骤包括：

将所述多个文本块输入至所述分类器，通过所述分类器的输入层提取出多个文本块对应的文本向量；

将多个文本向量作为关系分析网络层的输入，通过所述关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果；

将所述第一提取结果作为图卷积网络层的输入，通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取多个文本向量的依赖关系，得到第二提取结果；

将所述第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特征和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果；

将所述第三提取结果输入至分类层，通过所述分类层对所述第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

2.根据权利要求1所述的方法，其特征在于，所述待分类信息包括标题信息，所述对待分类信息进行分词处理的步骤包括：

根据所述标题信息匹配获取对应的定义表；

根据所述定义表对所述待分类信息进行词性标注，并根据词性标签进行分词，得到多个文本块；

根据分词后的多个文本块的词性标签对多个文本块标记优先等级；

删除所述优先等级未达到预设等级值的文本块，利用优先等级达到预设等级值的文本块得到过滤后的文本块。

3.根据权利要求1所述的方法，其特征在于，所述通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取文本向量的依赖关系的步骤，包括：

根据所述多个文本向量生成相应的多个文本块节点，并将多个文本块节点转换为相应的多个图节点；

通过所述图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧表示；

通过所述图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征；

根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

4.根据权利要求1所述的方法，其特征在于，在对多个文本块进行分类之前，还包括：

获取多个样本数据，将所述样本数据分为训练集和验证集；

获取预设的神经网络模型，利用所述训练集中的训练样本数据对所述神经网络模型进行训练，得到初始分类器；

将所述验证集中的验证数据输入至所述初始分类器，利用验证集对初始分类器进行进一步训练和验证，得到多个验证数据对应的类别概率；

直到所述验证数据对应的类别概率在预设范围内的数量达到预设阈值时，停止训练，得到所需的分类器。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据，包括：

根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息；

对多个元素节点和相应的节点信息进行关联性分析，得到多个元素节点的关联关系；

根据所述关联关系对多个元素节点进行映射与合并，通过节点链接技术将多个元素节点进行关联连接；

根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。

6.一种信息分类抽取装置，所述装置包括：

数据获取模块，用于获取待分类信息；

分类抽取模块，用于将所述多个文本块输入至已训练的分类器，所述分类器包括多个网络层，对多个文本块进行分类，确定所述待分类信息的目标事件类别和多个事件元素；根据所述目标事件类别和事件元素提取对应的事件元素参数，并输出所述目标事件类别和多个事件元素以及相应的事件元素参数；

事件图谱生成模块，用于根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据；

所述分类抽取模块还用于将所述多个文本块输入至所述分类器，通过所述分类器的输入层提取出多个文本块对应的文本向量；将多个文本向量作为关系分析网络层的输入，通过所述关系分析网络层对多个文本向量进行特征识别，提取文本向量的上下文特征，得到第一提取结果；将所述第一提取结果作为图卷积网络层的输入，通过所述图卷积网络层将文本向量转换为句法图结构，根据所述句法图结构提取多个文本向量的依赖关系，得到第二提取结果；将所述第二提取结果作为自注意力网络层的输入，根据文本向量的上下文特征和依赖关系分析多个事件元素的关联关系和权重，生成第三提取结果；将所述第三提取结果输入至分类层，通过所述分类层对所述第三提取结果进行分类得到对应的事件类别，以及多个事件元素和相应的事件元素参数，生成分类结果，通过输出层对分类结果进行加权后输出。

7.根据权利要求6所述的装置，其特征在于，所述待分类信息包括标题信息，所述分词处理模块还用于根据所述标题信息匹配获取对应的定义表；根据所述定义表对所述待分类信息进行词性标注，并根据词性标签进行分词，得到多个文本块；根据分词后的多个文本块的词性标签对多个文本块标记优先等级；删除所述优先等级未达到预设等级值的文本块，利用优先等级达到预设等级值的文本块得到过滤后的文本块。

8.根据权利要求6所述的装置，其特征在于，所述分类抽取模块还用于根据所述多个文本向量生成相应的多个文本块节点，并将多个文本块节点转换为相应的多个图节点；通过所述图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧表示；通过所述图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征；根据多个图节点的快捷弧表示和语义特征以及语境特征分析出多个文本向量的依赖关系。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。