CN114841161A

CN114841161A - 事件要素抽取方法、装置、设备、存储介质和程序产品

Info

Publication number: CN114841161A
Application number: CN202210548866.0A
Authority: CN
Inventors: 王冲; 吴珂; 李博; 黄天镜
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-02

Abstract

本申请涉及一种事件要素抽取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取目标舆情数据以及目标舆情数据对应的知识向量库，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度；确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息；将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。采用本方法能够提高事件要素提取的准确性。

Description

事件要素抽取方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及人工智能技术领域，特别是涉及一种事件要素抽取方法、装置、设备、存储介质和程序产品。

背景技术

舆情一般指广大群众对社会民情、民意的态度及舆论，其承载着民众对社会各种具体事务的情绪、意见和愿望等。金融是社会民生中最重要一环，对金融舆情进行监控对于了解民众态度是十分重要的。

事件要素抽取是金融舆情监控领域重要任务之一，事件要素通常是指描述舆情事件发生的要素信息，例如舆情事件法发生的时间、对象、地点等。现有技术中，在对金融舆情进行事件要素抽取时，通常是借助文本分类的方法以获取金融舆情对应的事件要素标签。

但上述对金融舆情进行事件要素抽取的方法，准确性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高事件要素提取准确性的事件要素抽取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种事件要素抽取方法。该方法包括：

获取目标舆情数据以及目标舆情数据对应的知识向量库，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度；

确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息；

将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。

在其中一个实施例中，该目标舆情数据包括舆情描述语句对应的多个语句词向量，确定目标舆情数据与各参考词向量之间的关联权重，包括：

针对每个语句词向量，基于预设关联函数，计算语句词向量与各参考词向量对应的关联权重，得到多个关联权重值。

在其中一个实施例中，基于关联权重确定目标舆情数据对应的融合描述信息，包括：

获取各语句词向量对应的多个关联权重中的最大权重值；

基于各语句词向量，生成语句表征矩阵；

对最大权重值与语句表征矩阵作外积运算，得到融合描述信息。

在其中一个实施例中，获取目标舆情数据，包括：

获取舆情描述语句，并对舆情描述语句进行分词处理，得到多个分词；

利用预设的文本编码算法，对各分词进行编码，得到多个语句词向量；

将多个语句词向量作为目标舆情数据。

在其中一个实施例中，该事件要素抽取模型包括第一子模型和第二子模型，将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签，包括：

将融合描述信息输入至第一子模型包括的多个滤波器中，得到各滤波器输出的局部特征信息，各滤波器对应的卷积核大小不同；

基于第一子模型和各局部特征信息，得到融合描述信息对应的目标特征信息；

将目标特征信息输入至第二子模型，得到第二子模型输出的目标事件要素标签。

在其中一个实施例中，基于第一子模型和各局部特征信息，得到融合描述信息对应的目标特征信息，包括：

通过第一子模型将各局部特征信息合并处理，得到融合描述信息对应的综合特征信息；

对综合特征信息进行降维处理，得到目标特征信息。

在其中一个实施例中，该将目标特征信息输入至第二子模型，得到第二子模型输出的目标事件要素标签，包括：

将目标特征信息输入至第二子模型，得到要素标签库中各要素标签对应的预测概率，预测概率是基于目标特征信息以及要素标签得到的；

若预测概率大于预设阈值，则将预测概率对应的要素标签作为目标事件要素标签。

第二方面，本申请还提供了一种事件要素抽取装置。该装置包括：

获取模块，用于获取目标舆情数据以及目标舆情数据对应的知识向量库，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度；

确定模块，用于确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息；

抽取模块，用于将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。

在其中一个实施例中，该目标舆情数据包括舆情描述语句对应的多个语句词向量，该确定模块具体用于：

在其中一个实施例中，该确定模块具体用于：

获取各语句词向量对应的多个关联权重中的最大权重值；

基于各语句词向量，生成语句表征矩阵；

在其中一个实施例中，该获取模块，具体用于：

将多个语句词向量作为目标舆情数据。

在其中一个实施例中，该事件要素抽取模型包括第一子模型和第二子模型，该抽取模块具体用于：

在其中一个实施例中，该抽取模块，还具体用于：

对综合特征信息进行降维处理，得到目标特征信息。

在其中一个实施例中，该抽取模块，还具体用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一所述的事件要素抽取方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一所述的事件要素抽取方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一所述的事件要素抽取方法。

上述事件要素抽取方法、装置、计算机设备、存储介质和计算机程序产品，获取目标舆情数据以及目标舆情数据对应的知识向量库，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度；确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息；将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。本申请实施例中，由于输入至事件要素抽取模型的融合描述信息是基于目标舆情数据与知识向量库中各参考词向量之间的关联权重确定的，借助注意力机制将知识领域分类维度对应的知识语义信息融入目标舆情数据中，在进行事件要素抽取时综合考虑到目标舆情数据所处的知识领域维度对应的知识语义信息，提高了事件要素抽取的准确性。

附图说明

图1为一个实施例中事件要素抽取方法的流程示意图；

图2为一个实施例中步骤102的流程示意图；

图3为一个实施例中步骤101的流程示意图；

图4为一个实施例中事件要素抽取模型的模型结果图；

图5为一个实施例中步骤103的流程示意图；

图6为一个实施例中事件要素抽取模型的训练过程的流程示意图；

图7为一个实施例中步骤402的流程示意图；

图8为另一个实施例中事件要素抽取方法的流程示意图；

图9为一个实施例中事件要素抽取方法的模型结果图；

图10为一个实施例中事件要素抽取装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种事件要素抽取方法。该事件要素抽取方法，其执行主体可以是事件要素抽取方法装置，该事件要素抽取方法装置可以通过软件、硬件或者软硬件结合的方式实现成为终端的部分或者全部。

下述方法实施例中，均以执行主体是终端为例来进行说明。其中，终端可以是个人计算机、笔记本电脑、媒体播放器、智能电视、智能手机、平板电脑和便携式可穿戴设备等，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

请参考图1，其示出了本申请实施例提供的一种事件要素抽取方法的流程图。如图1所示，该事件要素抽取方法可以包括以下步骤：

步骤101，获取目标舆情数据以及目标舆情数据对应的知识向量库。

其中，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度。

其中，该知识领域分类维度可以为金融、艺术、食品以及水利工程等技术领域中的一种，也可以为上述各技术领域包括的分支领域中的一种。

以目标舆情数据为金融舆情数据为例，该知识领域分类维度为银行知识领域。该知识向量库可为基于银行专业知识文本构建的知识向量库。具体的，采用文本处理方法，获取银行专业知识文本对应的参考词向量。其中，该文本处理方法对应的算法模型包括：词袋模型、词向量模型以及预训练BERT模型。

可选的，该目标舆情数据可以为舆情描述句，也可以是基于文本处理方法对舆情描述句进行文本处理后得到目标舆情数据，例如语句词向量等。目标舆情数据对应的文本处理方法与参考词向量对应的文本处理方法可以相同，也可以不同。

步骤102，确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息。

其中，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息。

可选的，基于目标舆情数据与各参考词向量之间的文本相似度，得到目标舆情数据与各参考词向量之间的关联权重。该文本相似度对应的语义相似度算法可以为以下算法中的一种：余弦相似度(Cosine Similarity)算法、欧式距离(Euclidean Distance)算法、曼哈顿距离(Manhattan Distance)算法、切比雪夫距离(Chebyshev Distance)算法以及Jaccard相似度算法，等等。

可选的，获取满足预设权重目标条件对应的参考词向量作为目标参考词向量，将目标参考词向量与目标舆情数据进行融合，得到融合描述信息。其中，该预设权重目标条件包括：关联权重超过预设权重阈值；该关联权重为目标舆情数据与各参考词向量之间的关联权重中的最大值。

步骤103，将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。

可选的，该目标事件要素标签对应的标签数量为多个。该目标事件要素标签可以为命名实体，例如，地名、机构名称、产品名称、人物名称以及时间词等等。

可选的，该事件要素抽取模型为多标签分类模型。具体的，该多标签分类模型可以为以下算法模型中的一种：支持向量积(SVM)模型，深度学习模型、BP神经网络模型以及随机森林模型，等等。

该实施例中，获取目标舆情数据以及目标舆情数据对应的知识向量库，知识向量库包括多个参考词向量，多个参考词向量与目标舆情数据具有相同的知识领域分类维度；确定目标舆情数据与各参考词向量之间的关联权重，并基于关联权重确定目标舆情数据对应的融合描述信息，融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息；将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签。本申请实施例中，由于输入至事件要素抽取模型的融合描述信息是基于目标舆情数据与知识向量库中各参考词向量之间的关联权重确定的，借助注意力机制将知识领域分类维度对应的知识语义信息融入目标舆情数据中，在进行事件要素抽取时综合考虑到目标舆情数据所处的知识领域维度对应的知识语义信息，提高了事件要素抽取的准确性。

进一步的，该目标舆情数据包括舆情描述语句对应的多个语句词向量。基于图1所示的实施例，步骤102中确定目标舆情数据与各参考词向量之间的关联权重的实现过程，包括以下步骤：

可选的，该预设关联函数的表达式如下：

b_ij＝Soft max(S_i·D_j)，

其中，b_ij表示第i个语句词向量与第j个参考词向量对应的关联权重，S_i表示第i个语句词向量，D_j表示第j个参考词向量，运算符“.”表示点乘运算。

在该实施例中，基于预设关联函数，计算语句词向量与各参考词向量对应的关联权重。这种关联权重值计算方法简单，计算量小。

在本申请实施例中，基于以上实施例，如图2所示，步骤102中基于关联权重确定目标舆情数据对应的融合描述信息的实现过程，包括以下步骤：

步骤201、获取各语句词向量对应的多个关联权重中的最大权重值。

可选的，通过上述步骤提到的预设关联函数，计算得到各关联权重b_ij；比较各关联权重b_ij，得到该最大权重值b_max。

步骤202，基于各语句词向量，生成语句表征矩阵。

可选的，将各语句词向量作为语句表征矩阵的一个行向量，得到语句表征矩阵S。或者，将各语句词向量作为语句表征矩阵的一个列向量，得到语句表征矩阵S。

步骤203，对最大权重值与语句表征矩阵作外积运算，得到融合描述信息。

可选的，基于以下公式，计算得到融合描述信息S^fin：

其中，S^fin表示融合描述信息，W为一个权重系数，b_max表示最大权重值，S表示语句表征矩阵。

该实施例中，获取各语句词向量对应的多个关联权重中的最大权重值，基于各语句词向量，生成语句表征矩阵，对最大权重值与语句表征矩阵作外积运算，得到融合描述信息，实现了目标舆情数据的关联权重的确定以及目标舆情数据与知识向量库的信息融合。该方法简单，提高了事件要素抽取算法的计算效率以及事件要素抽取的准确性。

在本申请实施例中，如图3所示，基于以上任一实施例，该实施例涉及的是步骤101中获取目标舆情数据的实现过程，包括以下步骤：

步骤301，获取舆情描述语句，并对舆情描述语句进行分词处理，得到多个分词。

可选的，采用文本分词工具，例如pkuseg多领域分词工具、THULAC(THU LexicalAnalyzer for Chinese)中文词法分析工具包，对舆情描述语句进行分词处理，得到多个分词。或者采用文本分词算法对舆情描述语句进行分词处理，得到多个分词，该文本分词算法可以为基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法等，此处不做限制。

步骤302，利用预设的文本编码算法，对各分词进行编码，得到多个语句词向量。

可选的，该文本编码算法为预训练BERT模型。即利用预训练BERT模型对各分词进行编码，得到多个语句词向量S₁,S₂,...,S_i,...,S_n，其中S_i是舆情描述语句的第i个语句词向量。

步骤303，将多个语句词向量作为目标舆情数据。

该实施例中，利用预设的文本编码算法对舆情描述语句对应的各分词进行编码，得到多个语句词向量，实现了舆情描述语句中语句信息的提取，通过将文本转换为向量，便于后续实现事件要素信息的提取。

在本申请实施例中，如图4所示，该事件要素抽取模型包括第一子模型100和第二子模型200。基于上述任一实施例，如图5所示，步骤103将融合描述信息输入至事件要素抽取模型，得到目标舆情数据对应的目标事件要素标签的实现过程，包括步骤401、步骤402以及步骤403：

步骤401，将融合描述信息输入至第一子模型包括的多个滤波器中，得到各滤波器输出的局部特征信息，各滤波器对应的卷积核大小不同。

可选的，该滤波器的数量不小于3个。图4示例性展示了滤波器的数量为3个时对应的事件要素抽取模型结构。以将融合描述信息输入至第k个滤波器为例，该第k个滤波器输出的局部特征信息包括多个局部子特征O_i。具体的，

其中，

为融合描述信息中第i行到第i+h_k-1行的特征，R_k表示第k个滤波器，h_k为第k个滤波器对应的卷积核大小，b为调节系数。将该多个局部子特征O_i进行合并，得到局部特征信息Z_k，其中，Z_k＝concat(o₁,o₂,…,o_i,…o_I)，I为局部子特征的个数。

步骤402，基于第一子模型和各局部特征信息，得到融合描述信息对应的目标特征信息。

可选的，通过第一子模型将各局部特征信息Z_k合并，得到合并特征信息Z_all，Z_all＝concat(Z₁,Z₂,…,Z_k,…,Z_K)，其中，K为滤波器的个数。将该合并特征信息Z_all作为目标特征信息。

步骤403，将目标特征信息输入至第二子模型，得到第二子模型输出的目标事件要素标签。

可选的，将目标特征信息输入至第二子模型，得到要素标签库中各要素标签对应的预测概率，预测概率是基于目标特征信息以及要素标签得到的；若预测概率大于预设阈值，则将预测概率对应的要素标签作为目标事件要素标签。

可选的，该要素标签库包括多个要素标签。该第二子模型包括激活函数和损失函数。

具体的，基于激活函数，根据目标特征信息以及要素标签计算得到该要素标签对应的预测概率。可选的，该激活函数为sigmoid函数，对应的函数表达式为：y(x_i)＝Sigmoid(logits_i)，其中，x_i表示要素标签库中的第i个要素标签对应的标签向量，y(x_i)表示第i个要素标签对应的预测概率，its_i表示基于目标特征信息以及第i个要素标签得到的第i个要素标签对应的标签预测值。可选的，该标签预测值为基于文字匹配算法计算得到的目标特征信息与第i个要素标签的匹配值。

可选的，该损失函数为交叉熵损失函数。

具体的，该事件要素抽取方法还包括事件要素抽取模型的训练过程。该事件要素抽取模型可以是终端自行训练的；可选地，为了节约终端的计算资源，事件要素抽取模型也可以由服务器训练，训练完成后发送至终端。本实施例以终端自行训练事件要素抽取模型为例进行描述。如图6所示，该事件要素抽取模型的训练过程如下：

步骤501，获取训练样本集。

其中，该训练样本包括样本舆情数据以及各要素标签对应的样本标签概率值。

可选的，该样本舆情数据为样本舆情描述句，也可以是基于文本处理方法对样本舆情描述句进行文本处理后得到的样本语句词向量。

可选的，各要素标签对应的样本标签概率值是基于one-hot编码方式计算得到的各要素标签对应的概率值。

步骤502，基于训练样本集，训练初始事件要素提取模型，得到事件要素提取模型。

可选的，基于Adam优化器以及训练样本集，采用反向传播技术训练初始事件要素提取模型，得到事件要素提取模型。

可选的，建立初始事件要素提取模型，基于样本舆情数据以及各要素标签对应的样本标签概率值，对初始事件要素提取模型执行多次训练过程，直至某次执行训练过程得到的中间模型满足目标训练条件为止，并将该中间模型作为事件要素提取模型。其中，该目标训练条件可为损失值小于预设损失阈值，该损失值的获取过程包括：在某次执行训练过程时将样本舆情数据以及要素标签输入至中间模型，得到输出结果；根据损失函数，计算输出结果与样本标签概率值之间的损失值。

该实施例中，通过将融合描述信息输入至第一子模型包括的多个卷积核大小不同的滤波器中，得到各滤波器输出的局部特征信息以用于后续事件要素提取，实现了对融合描述信息的特征充分提取，提高了事件要素抽取的准确性。

进一步的，基于图5所示的实施例，如图7所示，步骤402基于第一子模型和各局部特征信息，得到融合描述信息对应的目标特征信息的实现过程，包括以下步骤：

步骤601，通过第一子模型将各局部特征信息合并处理，得到融合描述信息对应的综合特征信息。

可选的，将步骤402中得到的合并特征信息Z_all作为综合特征信息。

步骤602，对综合特征信息进行降维处理，得到目标特征信息。

可选的，采用降维处理算法对该综合特征信息进行降维处理，得到目标特征信息。其中，该降维处理算法为最大池化方法，即该目标特征信息为Z_max＝MaxPooling(Z_all)。

该实施例中，通过对各局部特征信息合并处理后得到的综合特征信息进行降维处理，得到目标特征信息，提高了后续处理过程的运算量，提高了算法执行效率。

在本申请实施例中，如图8所示，该实施例提供了一种事件要素抽取方法，该方法包括以下步骤：

步骤701，获取舆情描述语句，并对舆情描述语句进行分词处理，得到多个分词。

图9为本实施例涉及的事件要素抽取方法对应的算法模型图。如图9所示，对舆情描述语句进行分词后，得到多个分词a1、a2、…、an。

步骤702，利用预设的文本编码算法，对各分词进行编码，得到多个语句词向量，将多个语句词向量作为目标舆情数据。

如图9所示，该预设的文本编码算法为预训练BERT模型。利用预训练BERT模型对各分词a1、a2、…、an进行编码，得到多个语句词向量A1、A2、…、An。

步骤703，获取目标舆情数据对应的知识向量库。

具体的，如图9所示，利用预训练BERT模型对多个知识文本语句(即d1、d2、…、dm)进行编码，得到多个参考词向量D1、D2、…、Dm。

步骤704，针对每个语句词向量，基于预设关联函数，计算语句词向量与各参考词向量对应的关联权重，得到多个关联权重值。

请继续参照图9，基于预设关联函数，计算语句词向量与各参考词向量对应的关联权重，该多个关联权重值分别为b1、b2、…、bm。

步骤705，获取各语句词向量对应的多个关联权重中的最大权重值。

步骤706，基于各语句词向量，生成语句表征矩阵。

步骤707，对最大权重值与语句表征矩阵作外积运算，得到融合描述信息。

其中，该融合描述信息用于表征目标舆情数据包括的与知识领域分类维度对应的舆情描述信息。

步骤708，将融合描述信息输入至第一子模型包括的多个滤波器中，得到各滤波器输出的局部特征信息，各滤波器对应的卷积核大小不同。

请继续参见图9，第一子模型100包括的滤波器数量为3。

步骤709，通过第一子模型将各局部特征信息合并处理，得到融合描述信息对应的综合特征信息。

步骤710，对综合特征信息进行降维处理，得到目标特征信息。

步骤711，将目标特征信息输入至第二子模型，得到要素标签库中各要素标签对应的预测概率，预测概率是基于目标特征信息以及要素标签得到的。

请继续参见图9，该预测概率是基于sigmoid函数，根据目标特征信息以及要素标签得到的概率值。

步骤712，若预测概率大于预设阈值，则将预测概率对应的要素标签作为目标事件要素标签。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的事件要素抽取方法的事件要素抽取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个事件要素抽取装置实施例中的具体限定可以参见上文中对于事件要素抽取方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种事件要素抽取装置，包括：获取模块、确定模块和抽取模块，其中：

在一个实施例中，该目标舆情数据包括舆情描述语句对应的多个语句词向量，该确定模块具体用于：

在一个实施例中，该确定模块具体用于：

获取各语句词向量对应的多个关联权重中的最大权重值；

基于各语句词向量，生成语句表征矩阵；

在一个实施例中，该获取模块，具体用于：

将多个语句词向量作为目标舆情数据。

在一个实施例中，该事件要素抽取模型包括第一子模型和第二子模型。该抽取模块，具体用于：

在一个实施例中，该抽取模块，还具体用于：

对综合特征信息进行降维处理，得到目标特征信息。

在一个实施例中，该抽取模块，还具体用于：

上述事件要素抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种事件要素抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取各语句词向量对应的多个关联权重中的最大权重值；基于各语句词向量，生成语句表征矩阵；对最大权重值与语句表征矩阵作外积运算，得到融合描述信息。

获取舆情描述语句，并对舆情描述语句进行分词处理，得到多个分词；利用预设的文本编码算法，对各分词进行编码，得到多个语句词向量；将多个语句词向量作为目标舆情数据。

将融合描述信息输入至第一子模型包括的多个滤波器中，得到各滤波器输出的局部特征信息，各滤波器对应的卷积核大小不同；基于第一子模型和各局部特征信息，得到融合描述信息对应的目标特征信息；将目标特征信息输入至第二子模型，得到第二子模型输出的目标事件要素标签。

通过第一子模型将各局部特征信息合并处理，得到融合描述信息对应的综合特征信息；对综合特征信息进行降维处理，得到目标特征信息。

将目标特征信息输入至第二子模型，得到要素标签库中各要素标签对应的预测概率，预测概率是基于目标特征信息以及要素标签得到的；若预测概率大于预设阈值，则将预测概率对应的要素标签作为目标事件要素标签。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

在一个实施例中，该计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种事件要素抽取方法，其特征在于，所述方法包括：

获取目标舆情数据以及所述目标舆情数据对应的知识向量库，所述知识向量库包括多个参考词向量，所述多个参考词向量与所述目标舆情数据具有相同的知识领域分类维度；

确定所述目标舆情数据与各所述参考词向量之间的关联权重，并基于所述关联权重确定所述目标舆情数据对应的融合描述信息，所述融合描述信息用于表征所述目标舆情数据包括的与所述知识领域分类维度对应的舆情描述信息；

将所述融合描述信息输入至事件要素抽取模型，得到所述目标舆情数据对应的目标事件要素标签。

2.根据权利要求1所述的方法，其特征在于，所述目标舆情数据包括舆情描述语句对应的多个语句词向量，所述确定所述目标舆情数据与各所述参考词向量之间的关联权重，包括：

针对每个所述语句词向量，基于预设关联函数，计算所述语句词向量与各所述参考词向量对应的关联权重，得到多个关联权重值。

3.根据权利要求2所述的方法，其特征在于，所述基于所述关联权重确定所述目标舆情数据对应的融合描述信息，包括：

获取各所述语句词向量对应的多个关联权重中的最大权重值；

基于各所述语句词向量，生成语句表征矩阵；

对所述最大权重值与所述语句表征矩阵作外积运算，得到所述融合描述信息。

4.根据权利要求1所述的方法，其特征在于，所述获取目标舆情数据，包括：

获取舆情描述语句，并对所述舆情描述语句进行分词处理，得到多个分词；

利用预设的文本编码算法，对各所述分词进行编码，得到多个语句词向量；

将所述多个语句词向量作为所述目标舆情数据。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述事件要素抽取模型包括第一子模型和第二子模型，所述将所述融合描述信息输入至事件要素抽取模型，得到所述目标舆情数据对应的目标事件要素标签，包括：

将所述融合描述信息输入至所述第一子模型包括的多个滤波器中，得到各所述滤波器输出的局部特征信息，各所述滤波器对应的卷积核大小不同；

基于所述第一子模型和各所述局部特征信息，得到所述融合描述信息对应的目标特征信息；

将所述目标特征信息输入至所述第二子模型，得到所述第二子模型输出的目标事件要素标签。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一子模型和各所述局部特征信息，得到所述融合描述信息对应的目标特征信息，包括：

通过所述第一子模型将各所述局部特征信息合并处理，得到所述融合描述信息对应的综合特征信息；

对所述综合特征信息进行降维处理，得到所述目标特征信息。

7.根据权利要求5所述的方法，其特征在于，所述将所述目标特征信息输入至所述第二子模型，得到所述第二子模型输出的目标事件要素标签，包括：

将所述目标特征信息输入至所述第二子模型，得到要素标签库中各要素标签对应的预测概率，所述预测概率是基于所述目标特征信息以及所述要素标签得到的；

若所述预测概率大于预设阈值，则将所述预测概率对应的要素标签作为所述目标事件要素标签。

8.一种事件要素抽取装置，其特征在于，所述装置包括：

获取模块，用于获取目标舆情数据以及所述目标舆情数据对应的知识向量库，所述知识向量库包括多个参考词向量，所述多个参考词向量与所述目标舆情数据具有相同的知识领域分类维度；

确定模块，用于确定所述目标舆情数据与各所述参考词向量之间的关联权重，并基于所述关联权重确定所述目标舆情数据对应的融合描述信息，所述融合描述信息用于表征所述目标舆情数据包括的与所述知识领域分类维度对应的舆情描述信息；

抽取模块，用于将所述融合描述信息输入至事件要素抽取模型，得到所述目标舆情数据对应的目标事件要素标签。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。