CN113946677A

CN113946677A - 基于双向循环神经网络和注意力机制的事件识别分类方法

Info

Publication number: CN113946677A
Application number: CN202111071418.8A
Authority: CN
Inventors: 张吉; 吴宇鑫; 赵利辉; 宋文爱
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-18
Anticipated expiration: 2041-09-14
Also published as: CN113946677B

Abstract

本发明公开一种基于双向循环神经网络和注意力机制的事件识别分类方法。通过爬虫框架获取指定网站平台上信息，提取网页中文本型数据并保存，随后通过人工标注的方式给数据集打上类别标签，并将其划分为训练集数据和测试集数据；将训练集数据清洗、文本分块和分词；对文本序列化，经过预训练的词向量模型进行特征提取，将每一行文本对应的数字序列转化词向量序列，构造embedding层；构造BiLSTM‑attention多分类模型，将embedding层作为输入加载到模型进行训练，最终实现事件识别与分类。本发明实现了事件识别与分类，能够以更小的颗粒度捕捉到对事件很有影响的语料，减少噪音对分类模型的不良影响，提高模型分类的准确率。

Description

基于双向循环神经网络和注意力机制的事件识别分类方法

技术领域

本发明涉及机器学习技术领域，具体而言，涉及一种基于双向循环神经网络和注意力机制的事件识别分类方法。

背景技术

随着互联网和信息技术的快速发展以及传统纸媒逐渐转型为信息化媒体，网络中充斥着各种各样的信息，尤其是作为非结构化的文本数据不仅是人们方便获取的信息，同时也是事件信息的一种重要承载形式。这些事件信息为信息检索、个性化新闻推荐、关系抽取和用户意图分析等领域的研究提供重要的数据来源。过去人们通过手工的方式对原始文挡进行标注和分类，不仅费时费力，而且分类结果达不到预期的效果，已经无法适应现代社会对数字信息的使用需求。因此，如何有效获取、过滤筛选、分类这些文本信息成为自然语言处理和机器学习领域研究的热点和难点。

传统的事件识别与分类方法包括基于模型匹配和基于机器学习。基于模型匹配的事件识别方法是通过对抽取模板的定义来实现事件识别，即先进行模型的获取其次完成事件类型识别。基于机器学习的事件识别方法是把事件的识别视为文本分类问题，划分为事件型信息和非事件型信息，其关键技术是分类器的构建和特征选择技术，一般主要包括最大熵(ME)和SVM。传统方法的不足之处在于都需要先获取事件特征，如邻近词、词性和依存关系等；由于词语间的同义性和多义性，同一类别的事件有不同的触发词，同一个词语在不同的上下文语境中导致不同的事件类型；基于模型匹配的方法需要一定的特有文本格式，适用性和灵活性较差，且需要语言学家全程参与，费时费力。

现有的事件识别与分类方法大多采用深度学习方法。深度学习能够使用大量无标签的文本数据获取解决自然语言处理领域问题需要的特征，通过构造多层神经网络模型持续组合低层文本信息形成更加抽象的高层文本表示，整个训练过程无需人工参与就能得到很好的分类效果。

现有方法的如下方面的不足：

1、分类效果不稳定。现有方法往往在语料训练阶段将整个网页内容作为输入加载到模型中，并没有对语料进行分割，而网页信息噪音繁多，因此过多无关的训练语料会大大增加模型中的噪音导致分类结果不理想。

2、动态维护性较差。现有方法的数据集往往较为固定，很少随着时间的推进而动态增量的补充数据，无法把握当下热点事件，缺乏时效性；在模型上，当同一类中的不同的具体事件不断出现或者错误分类的结果再次重新标记时缺乏对这些数据的再次训练，使得模型不具备动态迭代演进功能，最终导致模型的分类准确率得不到提升。

3、分类结果交互体验较差。现有方法在最终的分类结果呈现上往往通过大量文字堆砌的方式，此方式大大增加了人们阅读和理解的难度。

发明内容

本发明是为了解决上述背景技术中存在的不足之处，提出一种基于双向循环神经网络和注意力机制的事件识别分类方法，通过不断的动态增量形式增加数据，对文本采取分块输入的方式，以期能充分识别事件型信息特征，提升文本分块的精度和模型分类准确率，从而解决数据缺乏时效性以及基于整个网页输入中带来的无关噪音导致的分类效果不稳定问题。

本发明解决其技术问题所采用的技术方案是：本发明公开一种基于双向循环神经网络和注意力机制的事件识别分类方法，包括：

步骤1：数据收集与标注；通过爬虫框架获取网站文本型数据，形成网站文本型数据集；为网站文本型数据集打上类别标签，划分为训练集数据和测试集数据；

步骤2：数据预处理；将网站文本型数据集进行清洗和统一编码，去除停用词和错误数据，对网站文本型数据集进行分块处理，将网站文本型数据集中的长文本分割为若干个固定长度的文本块；对文本块使用jieba分词工具进行分词处理；

步骤3：特征提取；将预处理的网站文本型数据集进行序列化，经过Word2vec进行特征提取，将网站文本型数据集中的每一行文本对应的数字序列转化词向量序列，构造wordembedding层；

步骤4：模型构建与训练；构造BiLSTM-attention分类模型，将作为训练集的网站文本型数据提取的特征作为输入加载到 BiLSTM-attention模型进行训练，通过调整BiLSTM-attention模型的函数和参数，使输出的分类结果与分类标签结果一致；训练完成后，将作为测试数据集的网站文本型特征提取的特征输入 BiLSTM-attention模型，对模型分类准确性进行验证；

步骤5：分类结果可视化呈现；实时的网站文本型数据经过预处理和特征提取后，将提取的特征输入至训练好的BiLSTM-attention模型，输出结果作为对实时网站文本型数据的事件识别分类结果，并以事件图库形式展示给用户，支持收藏和查询事件，反馈错误的分类信息给模型，借此帮助模型更好的动态迭代演进。

优选地，数据收集与标注的步骤包括：

步骤1.1：用Scrapy爬虫框架编程实现对目标网站的爬取；通过设定url参数确保爬虫始终工作在特定目标网站范围内，过滤掉其他无关url；制定爬虫策略，提取目标网页中标题、正文、报道时间、网页的url特征数据和网页的MD5值，每一个网页爬取的数据单独以text格式，MD5值命名形式保存；

步骤1.2：在爬取阶段，判断当前网页的url是否有过爬取，若没有爬取过，则直接抓取步骤1.1中所提及的内容并保存；若已经爬取过，则再对比当前网页的MD5值是否发生变化，没有发生变化则跳过当前网页，有发生变化则再次抓取步骤1.1中所提及的内容保存并覆盖之前当前页已保存的文本信息；

步骤1.3：对爬取的网站文本型数据进行人工标注；将数据划分为事件型数据和非事件型数据，对事件型数据进一步划分成不同的类别，按照预设比例将完成标注的数据分割为训练集和测试集，从而构成数据集。

优选地，数据预处理的步骤包括：

步骤2.1：统一编码；对人工标注后的数据集进行统一编码处理，清除原始文本中的标点符号、乱码字符；如果原始文本中含有HTML、 XML标记与文本内容无关的字符，则将其去除使得待处理文本更加规范和有效；

步骤2.2：数据清洗；对统一编码后得到的数据集进行数据清洗操作，包括去除停用词和错误数据；停用词是在文本中的出现频率很高，却不能对文本分类提供有效的信息；采用停用词表，用查表法进行词语过滤；

步骤2.3：文本分块；对数据清洗得到的数据集进行文本分块操作，根据每部分固定长度的方式将语料分成k部分，同时将k部分的语料都打上原来长文本对应的标签；选择其中部分内容作为 BiLSTM-attention模型的输入；

步骤2.4：数据集中文分词；采用Jieba分词工具，对分割数据集得到的文本块进行中文分词，对输入的文本{x₁,x₂,…,x_i,...,x_n}，其中x_i表示第i行文本，n表示文本数量；进行分词处理后得到第i行单词序列

其中

表示第i行第k个单词，

为第i行文本x_i的单词数量；

步骤2.5：全部数据中文分词；对爬取的所有数据进行步骤2.1、步骤2.2、步骤2.3、步骤2.4处理，得到完成中文分词的全部爬取数据；

步骤2.6：词向量模型预训练；采用基于深度学习的预训练词嵌入模型word2vec，通过gensim库中word2vec模块进行训练，训练模型的文本数据来源于步骤2.5得到的数据，将每个词映射到100维的高维空间，使其具有很好的区分能力；

步骤2.7：数据集标签处理；对数据集标签进行one-hot编码转化，使之转化为数字特征；安装标签编码器并返回编码标签，再将类向量转换为二进制类矩阵。

优选地，特征提取包括以下步骤：

步骤3.1：构造词典；将完成分词的文本数据构建词典，在训练集的基础上生成一个tokenizer模型，tokenizer模型关联一个词汇表, 训练集中的所有词语都会出现在这个词汇表中；使用tokenizer模型来量化训练集和验证集；

步骤3.2：对完成分词的文本块数据进行序列化，将文本数据转化为数字序列；为了避免出现长短不一的数字序列，设置固定长度 Maxlen，采用当超过Maxlen时从尾部截断，不足时从尾部用0来填充的策略保证所有序列等长；

步骤3.3：按照预设比例随机划分训练集和验证集；

步骤3.4：特征提取构建wordembedding层；训练集数据和验证集数据通过word2vec词嵌入模型将每一块文本提取生成相应维度的词向量；输入n×t_i的训练集数据，即数据为n行，每一行为一条文本，第i行文本被分为t_i个词，则经过特征提取后，输出n行向量化的文本数据，其中每行为t_i个词向量，每个词向量的维度为100维。

优选地，模型构建与训练包括步骤：

步骤4.1：构建embedding层；输入步骤3.2得到的序列[x₁,x₂,…,x_i]，将其one-hot编码处理得到一个

的矩阵1，其中每行只有1个元素为1，其余都为0；根据步骤3.4将当前一行序列中的i个词逐一映射成100维度的词向量得到一个权重矩阵2，权重矩阵中第i个词的向量表示为[b₁,b₂,b₃,...,b₁₀₀]；最终矩阵1与权重矩阵2的相乘得到输入序列的对应的embedding；

步骤4.2：构造BiLSTM层；将embedding层输出特征矩阵 X＝(x₁,x₂,...,x_i)作为一个时间序列，t时刻将特征向量x_t分别输入到 LSTM的循环单元A_b，得到正向输出

经过A_f得到反向输出

最后输出的h_t由

与

拼接得到，即

h_t包含了正向LSTMt时刻之前文本序列的特征信息，又包含了由反向LSTM提取到t时刻之后文本序列的特征信息，从而充分提取到了文本的上下文信息，最终得到与输入长度相同的隐层状态序列{h₁,h₂,h₃,...,h_i}；

步骤4.3：构建注意力层；将步骤4.2得到的隐层状态序列 {h₁,h₂,h₃,...,h_i}输入到下一层Attention层；在Attention层中，计算查询向量Q与每个数据特征的键向量K_i之间的相似度，用softmax函数对注意力得分进行归一化从而得到权重分布，根据权重系数对 Value进行加权求和；在t时刻最终特征的计算过程如公式(1)所示：

其中，i表示输入的文本序列个数，h_t为t时刻隐层状态序列，h_j为t时刻设备文本中第j个特征词对应的隐向量；a_i表示为t时刻的隐层状态h_t对于h_j的权重分布；

步骤4.4：构建输出层；输出层由全连接层、Dropout层和softmax 层组成；Dropout层用于避免过拟合，Softmax层用于生成条件概率以实现事件分类；经步骤4.3输出的数据后再输入到全连接层、 Dropout层、softmax层将数字输入转为为概率输出，通过argmax函数输出标签值，即文本所属类别y；其计算过程如公式(2)所示：

y＝softmax(W·h_i+b) (2) 。

本发明相对于现有技术取得了以下有益技术效果：

1、本发明采用基于文本分割的语料训练多分类模型，在模型训练阶段，将语料以文本分割的方式划分成若干部分，每部分所含的字数相同，随后用其中的一个部分或者多个部分组合的方式输入到多分类模型当中。此方法相对于将整个网页内容作为训练语料输入到多分类模型中的传统方法而言，能够以更小的颗粒度捕捉到对事件很有影响的语料，从而减少噪音对分类模型的不良影响，起到更好的训练模型、识别事件的效果。

2、本发明采用动态的维护方式。在数据集上，本发明使用增量爬虫爬取目标网站，旨在获取特定时间段内新增的网页或网页内容发生变化的网页实现数据动态增量的增加。动态增量的方式保证了数据的时效性，提高了数据的可用性、灵活性，起到实时捕捉到新的事件效果，帮助人们及时把握当下热点事件；其次在模型上，本发明通过对比新产生的事件与同一类型下具体的不同事件信息相似度，若相似度小，区别大，则将新产生的事件加载到模型中再次训练或是再次训练错误分类结果所指代的具体事件信息，不断的迭代演进，进而提高模型分类的准确率和精度。

3、本发明在分类结果展示上采用可视化交互界面。主要以文字的形式展示事件，若该事件网页中含有配图，则以图片配合文字的事件图库形式将事件内容立体的表达出来；同时在交互界面中支持用户反馈错误分类结果。可视化呈现可以更好的表达事件的时间序列以及相互之间的关系，减少仅有文字堆叠表达方式带来的理解和处理事件的难度，提高分析效率，起到帮助人们快速理解事件，洞悉事件发展过程的效果；用户反馈机制可以更好帮助模型更好的动态迭代维护，提高分类的准确度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的一种基于双向循环神经网络和注意力机制的事件动态识别与分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明做进一步的详细说明。应当理解，此外所描述的具体实施例仅用以解释本发明，但并不用于限定本发明。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都将属于本发明保护的范围。

本发明的目的是提供一种基于双向循环神经网络和注意力机制的事件识别分类方法，包括：

本实施案例中分为训练阶段和测试阶段，训练阶段通过提取训练集文本中能够体现文本特点的关键特征，抓取特征到类别之间的映射。然后将这些特征作为输入加载到模型中来训练整个神经网络的权重参数。神经网络模型通过对关键特征的学习，去掉数据中的冗余信息，保留有意义的信息。最后用验证集来检验训练好的模型，根据混淆矩阵及相关的性能指标来判断分类效果好坏。测试阶段提取测试数据的特征输入到训练好的分类模型中，根据分类模型输出的类别概率分布判断分类结果正确与否。

优选地，数据收集与标注的步骤包括：

优选地，数据预处理的步骤包括：

其中

表示第i行第k个单词，

为第i行文本x_i的单词数量；

优选地，特征提取包括以下步骤：

步骤3.3：按照预设比例随机划分训练集和验证集；

优选地，模型构建与训练包括步骤：

步骤4.1：构建embedding层；输入步骤3.2得到的序列 [x₁,x₂,…,x_i]，将其one-hot编码处理得到一个

经过A_f得到反向输出

最后输出的h_t由

与

拼接得到，即

单个LSTM计算过程对应公式(3)～公式(8)：

遗忘门：f_t＝δ(W_f·[h_t-1,x_t]+b_f) (3)

输入门：i_t＝δ(W_i·[h_t-1,x_t]+b_i) (4)

候选态：

细胞态：

输出门：o_t＝δ(W_o·[h_t-1,x_t]+b_o) (7)

记忆体：

其中，b_f是偏置矩阵，W_f是权重矩阵，i_t是t时刻的输入门，h_t-1是上一个细胞的输入，x_t是t时刻的输入，σ是sigmoid函数，tanh()是双曲正切函数。

步骤4.3：构建注意力层；将步骤4.2得到的隐层状态序列 {h₁,h₂,h₃,...,h_i}输入到下一层Attention层；在Attention层中，计算查询向量Q与每个数据特征的键向量K_i之间的相似度，其计算过程如公式(9)所示：

simi_i＝similarityfunc(Q,K_i) (9)

用softmax函数对注意力得分进行归一化从而得到权重分布，其计算过程如公式(10)所示：

根据权重系数对Value进行加权求和，计算过程如公式(11)所示：

在t时刻最终特征的计算过程如公式(1)所示：

y＝softmax(W·h_i+b) (2) 。

在步骤5完成分类之后，将分类结果以文字的形式展示事件，若该事件网页中含有配图，则以图片配合文字的事件图库形式将事件内容立体的表达出来；在收到错误分类结果的反馈后，将反馈中的正确标签按照步骤2.7完成编码，再将文本按照步骤3进行再次训练。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于双向循环神经网络和注意力机制的事件识别分类方法，其特征在于，包括：

步骤4：模型构建与训练；构造BiLSTM-attention分类模型，将作为训练集的网站文本型数据提取的特征作为输入加载到BiLSTM-attention模型进行训练，通过调整BiLSTM-attention模型的函数和参数，使输出的分类结果与分类标签结果一致；训练完成后，将作为测试数据集的网站文本型特征提取的特征输入BiLSTM-attention模型，对模型分类准确性进行验证；

2.根据权利要求1所述的基于双向循环神经网络和注意力机制的事件识别分类方法，其特征在于：数据收集与标注的步骤包括：

3.根据权利要求2所述的基于双向循环神经网络和注意力机制的事件识别分类方法，其特征在于：数据预处理的步骤包括：

步骤2.1：统一编码；对人工标注后的数据集进行统一编码处理，清除原始文本中的标点符号、乱码字符；如果原始文本中含有HTML、XML标记与文本内容无关的字符，则将其去除使得待处理文本更加规范和有效；

步骤2.3：文本分块；对数据清洗得到的数据集进行文本分块操作，根据每部分固定长度的方式将语料分成k部分，同时将k部分的语料都打上原来长文本对应的标签；选择其中部分内容作为BiLSTM-attention模型的输入；

其中

表示第i行第k个单词，

为第i行文本x_i的单词数量；

4.根据权利要求3所述的基于双向循环神经网络和注意力机制的事件识别分类方法，其特征在于：特征提取包括以下步骤：

步骤3.1：构造词典；将完成分词的文本数据构建词典，在训练集的基础上生成一个tokenizer模型，tokenizer模型关联一个词汇表,训练集中的所有词语都会出现在这个词汇表中；使用tokenizer模型来量化训练集和验证集；

步骤3.2：对完成分词的文本块数据进行序列化，将文本数据转化为数字序列；为了避免出现长短不一的数字序列，设置固定长度Maxlen，采用当超过Maxlen时从尾部截断，不足时从尾部用0来填充的策略保证所有序列等长；

步骤3.3：按照预设比例随机划分训练集和验证集；

5.根据权利要求4所述的基于双向循环神经网络和注意力机制的事件识别分类方法，其特征在于：模型构建与训练包括步骤：

步骤4.2：构造BiLSTM层；将embedding层输出特征矩阵X＝(x₁,x₂,...,x_i)作为一个时间序列，t时刻将特征向量x_t分别输入到LSTM的循环单元A_b，得到正向输出

经过A_f得到反向输出

最后输出的h_t由

与

拼接得到，即

步骤4.3：构建注意力层；将步骤4.2得到的隐层状态序列{h₁,h₂,h₃,...,h_i}输入到下一层Attention层；在Attention层中，计算查询向量Q与每个数据特征的键向量K_i之间的相似度，用softmax函数对注意力得分进行归一化从而得到权重分布，根据权重系数对Value进行加权求和；在t时刻最终特征的计算过程如公式(1)所示：

步骤4.4：构建输出层；输出层由全连接层、Dropout层和softmax层组成；Dropout层用于避免过拟合，Softmax层用于生成条件概率以实现事件分类；经步骤4.3输出的数据后再输入到全连接层、Dropout层、softmax层将数字输入转为为概率输出，通过argmax函数输出标签值，即文本所属类别y；其计算过程如公式(2)所示：

y＝softmax(W·h_i+b) (2)。