CN113946677A - 基于双向循环神经网络和注意力机制的事件识别分类方法 - Google Patents
基于双向循环神经网络和注意力机制的事件识别分类方法 Download PDFInfo
- Publication number
- CN113946677A CN113946677A CN202111071418.8A CN202111071418A CN113946677A CN 113946677 A CN113946677 A CN 113946677A CN 202111071418 A CN202111071418 A CN 202111071418A CN 113946677 A CN113946677 A CN 113946677A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- model
- classification
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 13
- 230000007246 mechanism Effects 0.000 title claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 title abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000004140 cleaning Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000002411 adverse Effects 0.000 abstract description 2
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于双向循环神经网络和注意力机制的事件识别分类方法。通过爬虫框架获取指定网站平台上信息,提取网页中文本型数据并保存,随后通过人工标注的方式给数据集打上类别标签,并将其划分为训练集数据和测试集数据;将训练集数据清洗、文本分块和分词;对文本序列化,经过预训练的词向量模型进行特征提取,将每一行文本对应的数字序列转化词向量序列,构造embedding层;构造BiLSTM‑attention多分类模型,将embedding层作为输入加载到模型进行训练,最终实现事件识别与分类。本发明实现了事件识别与分类,能够以更小的颗粒度捕捉到对事件很有影响的语料,减少噪音对分类模型的不良影响,提高模型分类的准确率。
Description
技术领域
本发明涉及机器学习技术领域,具体而言,涉及一种基于双向循 环神经网络和注意力机制的事件识别分类方法。
背景技术
随着互联网和信息技术的快速发展以及传统纸媒逐渐转型为信 息化媒体,网络中充斥着各种各样的信息,尤其是作为非结构化的文 本数据不仅是人们方便获取的信息,同时也是事件信息的一种重要承 载形式。这些事件信息为信息检索、个性化新闻推荐、关系抽取和用 户意图分析等领域的研究提供重要的数据来源。过去人们通过手工的 方式对原始文挡进行标注和分类,不仅费时费力,而且分类结果达不 到预期的效果,已经无法适应现代社会对数字信息的使用需求。因此, 如何有效获取、过滤筛选、分类这些文本信息成为自然语言处理和机 器学习领域研究的热点和难点。
传统的事件识别与分类方法包括基于模型匹配和基于机器学习。 基于模型匹配的事件识别方法是通过对抽取模板的定义来实现事件 识别,即先进行模型的获取其次完成事件类型识别。基于机器学习的 事件识别方法是把事件的识别视为文本分类问题,划分为事件型信息 和非事件型信息,其关键技术是分类器的构建和特征选择技术,一般 主要包括最大熵(ME)和SVM。传统方法的不足之处在于都需要先获 取事件特征,如邻近词、词性和依存关系等;由于词语间的同义性和 多义性,同一类别的事件有不同的触发词,同一个词语在不同的上下 文语境中导致不同的事件类型;基于模型匹配的方法需要一定的特有文本格式,适用性和灵活性较差,且需要语言学家全程参与,费时费 力。
现有的事件识别与分类方法大多采用深度学习方法。深度学习能 够使用大量无标签的文本数据获取解决自然语言处理领域问题需要 的特征,通过构造多层神经网络模型持续组合低层文本信息形成更加 抽象的高层文本表示,整个训练过程无需人工参与就能得到很好的分 类效果。
现有方法的如下方面的不足:
1、分类效果不稳定。现有方法往往在语料训练阶段将整个网页 内容作为输入加载到模型中,并没有对语料进行分割,而网页信息噪 音繁多,因此过多无关的训练语料会大大增加模型中的噪音导致分类 结果不理想。
2、动态维护性较差。现有方法的数据集往往较为固定,很少随 着时间的推进而动态增量的补充数据,无法把握当下热点事件,缺乏 时效性;在模型上,当同一类中的不同的具体事件不断出现或者错误 分类的结果再次重新标记时缺乏对这些数据的再次训练,使得模型不 具备动态迭代演进功能,最终导致模型的分类准确率得不到提升。
3、分类结果交互体验较差。现有方法在最终的分类结果呈现上 往往通过大量文字堆砌的方式,此方式大大增加了人们阅读和理解的 难度。
发明内容
本发明是为了解决上述背景技术中存在的不足之处,提出一种基 于双向循环神经网络和注意力机制的事件识别分类方法,通过不断的 动态增量形式增加数据,对文本采取分块输入的方式,以期能充分识 别事件型信息特征,提升文本分块的精度和模型分类准确率,从而解 决数据缺乏时效性以及基于整个网页输入中带来的无关噪音导致的 分类效果不稳定问题。
本发明解决其技术问题所采用的技术方案是:本发明公开一种基 于双向循环神经网络和注意力机制的事件识别分类方法,包括:
步骤1:数据收集与标注;通过爬虫框架获取网站文本型数据, 形成网站文本型数据集;为网站文本型数据集打上类别标签,划分为 训练集数据和测试集数据;
步骤2:数据预处理;将网站文本型数据集进行清洗和统一编码, 去除停用词和错误数据,对网站文本型数据集进行分块处理,将网站 文本型数据集中的长文本分割为若干个固定长度的文本块;对文本块 使用jieba分词工具进行分词处理;
步骤3:特征提取;将预处理的网站文本型数据集进行序列化, 经过Word2vec进行特征提取,将网站文本型数据集中的每一行文本 对应的数字序列转化词向量序列,构造wordembedding层;
步骤4:模型构建与训练;构造BiLSTM-attention分类模型,将 作为训练集的网站文本型数据提取的特征作为输入加载到 BiLSTM-attention模型进行训练,通过调整BiLSTM-attention模型的 函数和参数,使输出的分类结果与分类标签结果一致;训练完成后, 将作为测试数据集的网站文本型特征提取的特征输入 BiLSTM-attention模型,对模型分类准确性进行验证;
步骤5:分类结果可视化呈现;实时的网站文本型数据经过预处 理和特征提取后,将提取的特征输入至训练好的BiLSTM-attention模 型,输出结果作为对实时网站文本型数据的事件识别分类结果,并以 事件图库形式展示给用户,支持收藏和查询事件,反馈错误的分类信 息给模型,借此帮助模型更好的动态迭代演进。
优选地,数据收集与标注的步骤包括:
步骤1.1:用Scrapy爬虫框架编程实现对目标网站的爬取;通过 设定url参数确保爬虫始终工作在特定目标网站范围内,过滤掉其他 无关url;制定爬虫策略,提取目标网页中标题、正文、报道时间、 网页的url特征数据和网页的MD5值,每一个网页爬取的数据单独以text格式,MD5值命名形式保存;
步骤1.2:在爬取阶段,判断当前网页的url是否有过爬取,若没 有爬取过,则直接抓取步骤1.1中所提及的内容并保存;若已经爬取 过,则再对比当前网页的MD5值是否发生变化,没有发生变化则跳 过当前网页,有发生变化则再次抓取步骤1.1中所提及的内容保存并 覆盖之前当前页已保存的文本信息;
步骤1.3:对爬取的网站文本型数据进行人工标注;将数据划分 为事件型数据和非事件型数据,对事件型数据进一步划分成不同的类 别,按照预设比例将完成标注的数据分割为训练集和测试集,从而构 成数据集。
优选地,数据预处理的步骤包括:
步骤2.1:统一编码;对人工标注后的数据集进行统一编码处理, 清除原始文本中的标点符号、乱码字符;如果原始文本中含有HTML、 XML标记与文本内容无关的字符,则将其去除使得待处理文本更加 规范和有效;
步骤2.2:数据清洗;对统一编码后得到的数据集进行数据清洗 操作,包括去除停用词和错误数据;停用词是在文本中的出现频率很 高,却不能对文本分类提供有效的信息;采用停用词表,用查表法进 行词语过滤;
步骤2.3:文本分块;对数据清洗得到的数据集进行文本分块操 作,根据每部分固定长度的方式将语料分成k部分,同时将k部分 的语料都打上原来长文本对应的标签;选择其中部分内容作为 BiLSTM-attention模型的输入;
步骤2.4:数据集中文分词;采用Jieba分词工具,对分割数据集 得到的文本块进行中文分词,对输入的文本{x1,x2,…,xi,...,xn},其中xi表 示第i行文本,n表示文本数量;进行分词处理后得到第i行单词序列 其中表示第i行第k个单词,为第i行文本xi的单词数量;
步骤2.5:全部数据中文分词;对爬取的所有数据进行步骤2.1、 步骤2.2、步骤2.3、步骤2.4处理,得到完成中文分词的全部爬取数 据;
步骤2.6:词向量模型预训练;采用基于深度学习的预训练词嵌 入模型word2vec,通过gensim库中word2vec模块进行训练,训练模 型的文本数据来源于步骤2.5得到的数据,将每个词映射到100维的 高维空间,使其具有很好的区分能力;
步骤2.7:数据集标签处理;对数据集标签进行one-hot编码转化, 使之转化为数字特征;安装标签编码器并返回编码标签,再将类向量 转换为二进制类矩阵。
优选地,特征提取包括以下步骤:
步骤3.1:构造词典;将完成分词的文本数据构建词典,在训练 集的基础上生成一个tokenizer模型,tokenizer模型关联一个词汇表, 训练集中的所有词语都会出现在这个词汇表中;使用tokenizer模型 来量化训练集和验证集;
步骤3.2:对完成分词的文本块数据进行序列化,将文本数据转 化为数字序列;为了避免出现长短不一的数字序列,设置固定长度 Maxlen,采用当超过Maxlen时从尾部截断,不足时从尾部用0来填 充的策略保证所有序列等长;
步骤3.3:按照预设比例随机划分训练集和验证集;
步骤3.4:特征提取构建wordembedding层;训练集数据和验证 集数据通过word2vec词嵌入模型将每一块文本提取生成相应维度的 词向量;输入n×ti的训练集数据,即数据为n行,每一行为一条文本, 第i行文本被分为ti个词,则经过特征提取后,输出n行向量化的文本 数据,其中每行为ti个词向量,每个词向量的维度为100维。
优选地,模型构建与训练包括步骤:
步骤4.1:构建embedding层;输入步骤3.2得到的序列[x1,x2,…,xi],将其one-hot编码处理得到一个的矩阵1, 其中每行只有1个元素为1,其余都为0;根据步骤3.4将当前一行 序列中的i个词逐一映射成100维度的词向量得到一个权重矩阵2, 权重矩阵中第i个词的向量表示为[b1,b2,b3,...,b100];最终矩阵1与权重 矩阵2的相乘得到输入序列的对应的embedding;
步骤4.2:构造BiLSTM层;将embedding层输出特征矩阵 X=(x1,x2,...,xi)作为一个时间序列,t时刻将特征向量xt分别输入到 LSTM的循环单元Ab,得到正向输出经过Af得到反向输出最 后输出的ht由与拼接得到,即ht包含了正向LSTMt时刻之前文本序列的特征信息,又包含了由反向LSTM提取到t时刻之后 文本序列的特征信息,从而充分提取到了文本的上下文信息,最终得 到与输入长度相同的隐层状态序列{h1,h2,h3,...,hi};
步骤4.3:构建注意力层;将步骤4.2得到的隐层状态序列 {h1,h2,h3,...,hi}输入到下一层Attention层;在Attention层中,计算 查询向量Q与每个数据特征的键向量Ki之间的相似度,用softmax函 数对注意力得分进行归一化从而得到权重分布,根据权重系数对 Value进行加权求和;在t时刻最终特征的计算过程如公式(1)所示:
其中,i表示输入的文本序列个数,ht为t时刻隐层状态序列,hj为t时刻设备文本中第j个特征词对应的隐向量;ai表示为t时刻的隐 层状态ht对于hj的权重分布;
步骤4.4:构建输出层;输出层由全连接层、Dropout层和softmax 层组成;Dropout层用于避免过拟合,Softmax层用于生成条件概率 以实现事件分类;经步骤4.3输出的数据后再输入到全连接层、 Dropout层、softmax层将数字输入转为为概率输出,通过argmax函数输出标签值,即文本所属类别y;其计算过程如公式(2)所示:
y=softmax(W·hi+b) (2) 。
本发明相对于现有技术取得了以下有益技术效果:
1、本发明采用基于文本分割的语料训练多分类模型,在模型训 练阶段,将语料以文本分割的方式划分成若干部分,每部分所含的字 数相同,随后用其中的一个部分或者多个部分组合的方式输入到多分 类模型当中。此方法相对于将整个网页内容作为训练语料输入到多分 类模型中的传统方法而言,能够以更小的颗粒度捕捉到对事件很有影 响的语料,从而减少噪音对分类模型的不良影响,起到更好的训练模 型、识别事件的效果。
2、本发明采用动态的维护方式。在数据集上,本发明使用增量 爬虫爬取目标网站,旨在获取特定时间段内新增的网页或网页内容发 生变化的网页实现数据动态增量的增加。动态增量的方式保证了数据 的时效性,提高了数据的可用性、灵活性,起到实时捕捉到新的事件 效果,帮助人们及时把握当下热点事件;其次在模型上,本发明通过 对比新产生的事件与同一类型下具体的不同事件信息相似度,若相似 度小,区别大,则将新产生的事件加载到模型中再次训练或是再次训 练错误分类结果所指代的具体事件信息,不断的迭代演进,进而提高 模型分类的准确率和精度。
3、本发明在分类结果展示上采用可视化交互界面。主要以文字 的形式展示事件,若该事件网页中含有配图,则以图片配合文字的事 件图库形式将事件内容立体的表达出来;同时在交互界面中支持用户 反馈错误分类结果。可视化呈现可以更好的表达事件的时间序列以及 相互之间的关系,减少仅有文字堆叠表达方式带来的理解和处理事件 的难度,提高分析效率,起到帮助人们快速理解事件,洞悉事件发展 过程的效果;用户反馈机制可以更好帮助模型更好的动态迭代维护, 提高分类的准确度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于双向循环神经网络和注意力机制 的事件动态识别与分类方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明做进一步的详细说明。应当理解,此外所描 述的具体实施例仅用以解释本发明,但并不用于限定本发明。基于本 发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都将属于本发明保护的范围。
本发明的目的是提供一种基于双向循环神经网络和注意力机制 的事件识别分类方法,包括:
步骤1:数据收集与标注;通过爬虫框架获取网站文本型数据, 形成网站文本型数据集;为网站文本型数据集打上类别标签,划分为 训练集数据和测试集数据;
步骤2:数据预处理;将网站文本型数据集进行清洗和统一编码, 去除停用词和错误数据,对网站文本型数据集进行分块处理,将网站 文本型数据集中的长文本分割为若干个固定长度的文本块;对文本块 使用jieba分词工具进行分词处理;
步骤3:特征提取;将预处理的网站文本型数据集进行序列化, 经过Word2vec进行特征提取,将网站文本型数据集中的每一行文本 对应的数字序列转化词向量序列,构造wordembedding层;
步骤4:模型构建与训练;构造BiLSTM-attention分类模型,将 作为训练集的网站文本型数据提取的特征作为输入加载到 BiLSTM-attention模型进行训练,通过调整BiLSTM-attention模型的 函数和参数,使输出的分类结果与分类标签结果一致;训练完成后, 将作为测试数据集的网站文本型特征提取的特征输入 BiLSTM-attention模型,对模型分类准确性进行验证;
步骤5:分类结果可视化呈现;实时的网站文本型数据经过预处 理和特征提取后,将提取的特征输入至训练好的BiLSTM-attention模 型,输出结果作为对实时网站文本型数据的事件识别分类结果,并以 事件图库形式展示给用户,支持收藏和查询事件,反馈错误的分类信 息给模型,借此帮助模型更好的动态迭代演进。
本实施案例中分为训练阶段和测试阶段,训练阶段通过提取训练 集文本中能够体现文本特点的关键特征,抓取特征到类别之间的映射。 然后将这些特征作为输入加载到模型中来训练整个神经网络的权重 参数。神经网络模型通过对关键特征的学习,去掉数据中的冗余信息, 保留有意义的信息。最后用验证集来检验训练好的模型,根据混淆矩 阵及相关的性能指标来判断分类效果好坏。测试阶段提取测试数据的 特征输入到训练好的分类模型中,根据分类模型输出的类别概率分布 判断分类结果正确与否。
优选地,数据收集与标注的步骤包括:
步骤1.1:用Scrapy爬虫框架编程实现对目标网站的爬取;通过 设定url参数确保爬虫始终工作在特定目标网站范围内,过滤掉其他 无关url;制定爬虫策略,提取目标网页中标题、正文、报道时间、 网页的url特征数据和网页的MD5值,每一个网页爬取的数据单独以text格式,MD5值命名形式保存;
步骤1.2:在爬取阶段,判断当前网页的url是否有过爬取,若没 有爬取过,则直接抓取步骤1.1中所提及的内容并保存;若已经爬取 过,则再对比当前网页的MD5值是否发生变化,没有发生变化则跳 过当前网页,有发生变化则再次抓取步骤1.1中所提及的内容保存并 覆盖之前当前页已保存的文本信息;
步骤1.3:对爬取的网站文本型数据进行人工标注;将数据划分 为事件型数据和非事件型数据,对事件型数据进一步划分成不同的类 别,按照预设比例将完成标注的数据分割为训练集和测试集,从而构 成数据集。
优选地,数据预处理的步骤包括:
步骤2.1:统一编码;对人工标注后的数据集进行统一编码处理, 清除原始文本中的标点符号、乱码字符;如果原始文本中含有HTML、 XML标记与文本内容无关的字符,则将其去除使得待处理文本更加 规范和有效;
步骤2.2:数据清洗;对统一编码后得到的数据集进行数据清洗 操作,包括去除停用词和错误数据;停用词是在文本中的出现频率很 高,却不能对文本分类提供有效的信息;采用停用词表,用查表法进 行词语过滤;
步骤2.3:文本分块;对数据清洗得到的数据集进行文本分块操 作,根据每部分固定长度的方式将语料分成k部分,同时将k部分 的语料都打上原来长文本对应的标签;选择其中部分内容作为 BiLSTM-attention模型的输入;
步骤2.4:数据集中文分词;采用Jieba分词工具,对分割数据集 得到的文本块进行中文分词,对输入的文本{x1,x2,…,xi,...,xn},其中xi表 示第i行文本,n表示文本数量;进行分词处理后得到第i行单词序列 其中表示第i行第k个单词,为第i行文本xi的单词数量;
步骤2.5:全部数据中文分词;对爬取的所有数据进行步骤2.1、 步骤2.2、步骤2.3、步骤2.4处理,得到完成中文分词的全部爬取数 据;
步骤2.6:词向量模型预训练;采用基于深度学习的预训练词嵌 入模型word2vec,通过gensim库中word2vec模块进行训练,训练模 型的文本数据来源于步骤2.5得到的数据,将每个词映射到100维的 高维空间,使其具有很好的区分能力;
步骤2.7:数据集标签处理;对数据集标签进行one-hot编码转化, 使之转化为数字特征;安装标签编码器并返回编码标签,再将类向量 转换为二进制类矩阵。
优选地,特征提取包括以下步骤:
步骤3.1:构造词典;将完成分词的文本数据构建词典,在训练 集的基础上生成一个tokenizer模型,tokenizer模型关联一个词汇表, 训练集中的所有词语都会出现在这个词汇表中;使用tokenizer模型 来量化训练集和验证集;
步骤3.2:对完成分词的文本块数据进行序列化,将文本数据转 化为数字序列;为了避免出现长短不一的数字序列,设置固定长度 Maxlen,采用当超过Maxlen时从尾部截断,不足时从尾部用0来填 充的策略保证所有序列等长;
步骤3.3:按照预设比例随机划分训练集和验证集;
步骤3.4:特征提取构建wordembedding层;训练集数据和验证 集数据通过word2vec词嵌入模型将每一块文本提取生成相应维度的 词向量;输入n×ti的训练集数据,即数据为n行,每一行为一条文本, 第i行文本被分为ti个词,则经过特征提取后,输出n行向量化的文本 数据,其中每行为ti个词向量,每个词向量的维度为100维。
优选地,模型构建与训练包括步骤:
步骤4.1:构建embedding层;输入步骤3.2得到的序列 [x1,x2,…,xi],将其one-hot编码处理得到一个的矩阵1, 其中每行只有1个元素为1,其余都为0;根据步骤3.4将当前一行 序列中的i个词逐一映射成100维度的词向量得到一个权重矩阵2, 权重矩阵中第i个词的向量表示为[b1,b2,b3,...,b100];最终矩阵1与权重 矩阵2的相乘得到输入序列的对应的embedding;
步骤4.2:构造BiLSTM层;将embedding层输出特征矩阵 X=(x1,x2,...,xi)作为一个时间序列,t时刻将特征向量xt分别输入到 LSTM的循环单元Ab,得到正向输出经过Af得到反向输出最 后输出的ht由与拼接得到,即ht包含了正向LSTMt时刻之前文本序列的特征信息,又包含了由反向LSTM提取到t时刻之后 文本序列的特征信息,从而充分提取到了文本的上下文信息,最终得 到与输入长度相同的隐层状态序列{h1,h2,h3,...,hi};
单个LSTM计算过程对应公式(3)~公式(8):
遗忘门:ft=δ(Wf·[ht-1,xt]+bf) (3)
输入门:it=δ(Wi·[ht-1,xt]+bi) (4)
输出门:ot=δ(Wo·[ht-1,xt]+bo) (7)
其中,bf是偏置矩阵,Wf是权重矩阵,it是t时刻的输入门,ht-1是上一个细胞的输入,xt是t时刻的输入,σ是sigmoid函数,tanh()是 双曲正切函数。
步骤4.3:构建注意力层;将步骤4.2得到的隐层状态序列 {h1,h2,h3,...,hi}输入到下一层Attention层;在Attention层中,计算 查询向量Q与每个数据特征的键向量Ki之间的相似度,其计算过程如 公式(9)所示:
simii=similarityfunc(Q,Ki) (9)
用softmax函数对注意力得分进行归一化从而得到权重分布,其 计算过程如公式(10)所示:
根据权重系数对Value进行加权求和,计算过程如公式(11)所示:
在t时刻最终特征的计算过程如公式(1)所示:
其中,i表示输入的文本序列个数,ht为t时刻隐层状态序列,hj为t时刻设备文本中第j个特征词对应的隐向量;ai表示为t时刻的隐 层状态ht对于hj的权重分布;
步骤4.4:构建输出层;输出层由全连接层、Dropout层和softmax 层组成;Dropout层用于避免过拟合,Softmax层用于生成条件概率 以实现事件分类;经步骤4.3输出的数据后再输入到全连接层、 Dropout层、softmax层将数字输入转为为概率输出,通过argmax函数输出标签值,即文本所属类别y;其计算过程如公式(2)所示:
y=softmax(W·hi+b) (2) 。
在步骤5完成分类之后,将分类结果以文字的形式展示事件,若 该事件网页中含有配图,则以图片配合文字的事件图库形式将事件内 容立体的表达出来;在收到错误分类结果的反馈后,将反馈中的正确 标签按照步骤2.7完成编码,再将文本按照步骤3进行再次训练。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局 限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而 不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离 本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这 些均属于本发明的保护之内。
Claims (5)
1.一种基于双向循环神经网络和注意力机制的事件识别分类方法,其特征在于,包括:
步骤1:数据收集与标注;通过爬虫框架获取网站文本型数据,形成网站文本型数据集;为网站文本型数据集打上类别标签,划分为训练集数据和测试集数据;
步骤2:数据预处理;将网站文本型数据集进行清洗和统一编码,去除停用词和错误数据,对网站文本型数据集进行分块处理,将网站文本型数据集中的长文本分割为若干个固定长度的文本块;对文本块使用jieba分词工具进行分词处理;
步骤3:特征提取;将预处理的网站文本型数据集进行序列化,经过Word2vec进行特征提取,将网站文本型数据集中的每一行文本对应的数字序列转化词向量序列,构造wordembedding层;
步骤4:模型构建与训练;构造BiLSTM-attention分类模型,将作为训练集的网站文本型数据提取的特征作为输入加载到BiLSTM-attention模型进行训练,通过调整BiLSTM-attention模型的函数和参数,使输出的分类结果与分类标签结果一致;训练完成后,将作为测试数据集的网站文本型特征提取的特征输入BiLSTM-attention模型,对模型分类准确性进行验证;
步骤5:分类结果可视化呈现;实时的网站文本型数据经过预处理和特征提取后,将提取的特征输入至训练好的BiLSTM-attention模型,输出结果作为对实时网站文本型数据的事件识别分类结果,并以事件图库形式展示给用户,支持收藏和查询事件,反馈错误的分类信息给模型,借此帮助模型更好的动态迭代演进。
2.根据权利要求1所述的基于双向循环神经网络和注意力机制的事件识别分类方法,其特征在于:数据收集与标注的步骤包括:
步骤1.1:用Scrapy爬虫框架编程实现对目标网站的爬取;通过设定url参数确保爬虫始终工作在特定目标网站范围内,过滤掉其他无关url;制定爬虫策略,提取目标网页中标题、正文、报道时间、网页的url特征数据和网页的MD5值,每一个网页爬取的数据单独以text格式,MD5值命名形式保存;
步骤1.2:在爬取阶段,判断当前网页的url是否有过爬取,若没有爬取过,则直接抓取步骤1.1中所提及的内容并保存;若已经爬取过,则再对比当前网页的MD5值是否发生变化,没有发生变化则跳过当前网页,有发生变化则再次抓取步骤1.1中所提及的内容保存并覆盖之前当前页已保存的文本信息;
步骤1.3:对爬取的网站文本型数据进行人工标注;将数据划分为事件型数据和非事件型数据,对事件型数据进一步划分成不同的类别,按照预设比例将完成标注的数据分割为训练集和测试集,从而构成数据集。
3.根据权利要求2所述的基于双向循环神经网络和注意力机制的事件识别分类方法,其特征在于:数据预处理的步骤包括:
步骤2.1:统一编码;对人工标注后的数据集进行统一编码处理,清除原始文本中的标点符号、乱码字符;如果原始文本中含有HTML、XML标记与文本内容无关的字符,则将其去除使得待处理文本更加规范和有效;
步骤2.2:数据清洗;对统一编码后得到的数据集进行数据清洗操作,包括去除停用词和错误数据;停用词是在文本中的出现频率很高,却不能对文本分类提供有效的信息;采用停用词表,用查表法进行词语过滤;
步骤2.3:文本分块;对数据清洗得到的数据集进行文本分块操作,根据每部分固定长度的方式将语料分成k部分,同时将k部分的语料都打上原来长文本对应的标签;选择其中部分内容作为BiLSTM-attention模型的输入;
步骤2.4:数据集中文分词;采用Jieba分词工具,对分割数据集得到的文本块进行中文分词,对输入的文本{x1,x2,…,xi,...,xn},其中xi表示第i行文本,n表示文本数量;进行分词处理后得到第i行单词序列其中表示第i行第k个单词,为第i行文本xi的单词数量;
步骤2.5:全部数据中文分词;对爬取的所有数据进行步骤2.1、步骤2.2、步骤2.3、步骤2.4处理,得到完成中文分词的全部爬取数据;
步骤2.6:词向量模型预训练;采用基于深度学习的预训练词嵌入模型word2vec,通过gensim库中word2vec模块进行训练,训练模型的文本数据来源于步骤2.5得到的数据,将每个词映射到100维的高维空间,使其具有很好的区分能力;
步骤2.7:数据集标签处理;对数据集标签进行one-hot编码转化,使之转化为数字特征;安装标签编码器并返回编码标签,再将类向量转换为二进制类矩阵。
4.根据权利要求3所述的基于双向循环神经网络和注意力机制的事件识别分类方法,其特征在于:特征提取包括以下步骤:
步骤3.1:构造词典;将完成分词的文本数据构建词典,在训练集的基础上生成一个tokenizer模型,tokenizer模型关联一个词汇表,训练集中的所有词语都会出现在这个词汇表中;使用tokenizer模型来量化训练集和验证集;
步骤3.2:对完成分词的文本块数据进行序列化,将文本数据转化为数字序列;为了避免出现长短不一的数字序列,设置固定长度Maxlen,采用当超过Maxlen时从尾部截断,不足时从尾部用0来填充的策略保证所有序列等长;
步骤3.3:按照预设比例随机划分训练集和验证集;
步骤3.4:特征提取构建wordembedding层;训练集数据和验证集数据通过word2vec词嵌入模型将每一块文本提取生成相应维度的词向量;输入n×ti的训练集数据,即数据为n行,每一行为一条文本,第i行文本被分为ti个词,则经过特征提取后,输出n行向量化的文本数据,其中每行为ti个词向量,每个词向量的维度为100维。
5.根据权利要求4所述的基于双向循环神经网络和注意力机制的事件识别分类方法,其特征在于:模型构建与训练包括步骤:
步骤4.1:构建embedding层;输入步骤3.2得到的序列[x1,x2,…,xi],将其one-hot编码处理得到一个的矩阵1,其中每行只有1个元素为1,其余都为0;根据步骤3.4将当前一行序列中的i个词逐一映射成100维度的词向量得到一个权重矩阵2,权重矩阵中第i个词的向量表示为[b1,b2,b3,...,b100];最终矩阵1与权重矩阵2的相乘得到输入序列的对应的embedding;
步骤4.2:构造BiLSTM层;将embedding层输出特征矩阵X=(x1,x2,...,xi)作为一个时间序列,t时刻将特征向量xt分别输入到LSTM的循环单元Ab,得到正向输出经过Af得到反向输出最后输出的ht由与拼接得到,即ht包含了正向LSTMt时刻之前文本序列的特征信息,又包含了由反向LSTM提取到t时刻之后文本序列的特征信息,从而充分提取到了文本的上下文信息,最终得到与输入长度相同的隐层状态序列{h1,h2,h3,...,hi};
步骤4.3:构建注意力层;将步骤4.2得到的隐层状态序列{h1,h2,h3,...,hi}输入到下一层Attention层;在Attention层中,计算查询向量Q与每个数据特征的键向量Ki之间的相似度,用softmax函数对注意力得分进行归一化从而得到权重分布,根据权重系数对Value进行加权求和;在t时刻最终特征的计算过程如公式(1)所示:
其中,i表示输入的文本序列个数,ht为t时刻隐层状态序列,hj为t时刻设备文本中第j个特征词对应的隐向量;ai表示为t时刻的隐层状态ht对于hj的权重分布;
步骤4.4:构建输出层;输出层由全连接层、Dropout层和softmax层组成;Dropout层用于避免过拟合,Softmax层用于生成条件概率以实现事件分类;经步骤4.3输出的数据后再输入到全连接层、Dropout层、softmax层将数字输入转为为概率输出,通过argmax函数输出标签值,即文本所属类别y;其计算过程如公式(2)所示:
y=softmax(W·hi+b) (2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071418.8A CN113946677B (zh) | 2021-09-14 | 2021-09-14 | 基于双向循环神经网络和注意力机制的事件识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071418.8A CN113946677B (zh) | 2021-09-14 | 2021-09-14 | 基于双向循环神经网络和注意力机制的事件识别分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113946677A true CN113946677A (zh) | 2022-01-18 |
CN113946677B CN113946677B (zh) | 2024-06-14 |
Family
ID=79328149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111071418.8A Active CN113946677B (zh) | 2021-09-14 | 2021-09-14 | 基于双向循环神经网络和注意力机制的事件识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946677B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547305A (zh) * | 2022-02-24 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种基于自然语言处理的文本分类系统 |
CN114817537A (zh) * | 2022-04-22 | 2022-07-29 | 同方知网数字出版技术股份有限公司 | 一种基于政策文件数据的分类方法 |
CN115396237A (zh) * | 2022-10-27 | 2022-11-25 | 浙江鹏信信息科技股份有限公司 | 网页恶意篡改识别方法、系统及可读存储介质 |
CN115525281A (zh) * | 2022-10-12 | 2022-12-27 | 广州宏天软件股份有限公司 | 一种表单交互图形展示与选择方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170371958A1 (en) * | 2016-06-28 | 2017-12-28 | Microsoft Technology Licensing, Llc | Leveraging corporal data for data parsing and predicting |
CN107657271A (zh) * | 2017-09-02 | 2018-02-02 | 西安电子科技大学 | 基于长短时记忆网络的高光谱图像分类方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
CN111053549A (zh) * | 2019-12-23 | 2020-04-24 | 威海北洋电气集团股份有限公司 | 一种智能生物信号异常检测方法及系统 |
CN111198995A (zh) * | 2020-01-07 | 2020-05-26 | 电子科技大学 | 一种恶意网页识别方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
US20210142164A1 (en) * | 2019-11-07 | 2021-05-13 | Salesforce.Com, Inc. | Multi-Task Knowledge Distillation for Language Model |
CN112883165A (zh) * | 2021-03-16 | 2021-06-01 | 山东亿云信息技术有限公司 | 一种基于语义理解的智能全文检索方法及系统 |
-
2021
- 2021-09-14 CN CN202111071418.8A patent/CN113946677B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170371958A1 (en) * | 2016-06-28 | 2017-12-28 | Microsoft Technology Licensing, Llc | Leveraging corporal data for data parsing and predicting |
CN107657271A (zh) * | 2017-09-02 | 2018-02-02 | 西安电子科技大学 | 基于长短时记忆网络的高光谱图像分类方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
US20210142164A1 (en) * | 2019-11-07 | 2021-05-13 | Salesforce.Com, Inc. | Multi-Task Knowledge Distillation for Language Model |
CN111053549A (zh) * | 2019-12-23 | 2020-04-24 | 威海北洋电气集团股份有限公司 | 一种智能生物信号异常检测方法及系统 |
CN111198995A (zh) * | 2020-01-07 | 2020-05-26 | 电子科技大学 | 一种恶意网页识别方法 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
CN112883165A (zh) * | 2021-03-16 | 2021-06-01 | 山东亿云信息技术有限公司 | 一种基于语义理解的智能全文检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
CHAO LI等: "A Novel Document Classification Algorithm Based on Statistical Features and Attention Mechanism", 《2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》, 14 October 2018 (2018-10-14), pages 2161 - 4407 * |
吴宇鑫: "基于深度学习的网络事件动态识别与分析", 《万方数据》, 1 November 2023 (2023-11-01), pages 1 - 52 * |
崔玉爽: "基于双通道混合神经网络的商品评论情感分析研究", 《中国优秀硕士学位论文全文数据 信息科技辑》, 15 July 2020 (2020-07-15), pages 138 - 1542 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547305A (zh) * | 2022-02-24 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种基于自然语言处理的文本分类系统 |
CN114817537A (zh) * | 2022-04-22 | 2022-07-29 | 同方知网数字出版技术股份有限公司 | 一种基于政策文件数据的分类方法 |
CN115525281A (zh) * | 2022-10-12 | 2022-12-27 | 广州宏天软件股份有限公司 | 一种表单交互图形展示与选择方法 |
CN115525281B (zh) * | 2022-10-12 | 2023-06-27 | 广州宏天软件股份有限公司 | 一种表单交互图形展示与选择方法 |
CN115396237A (zh) * | 2022-10-27 | 2022-11-25 | 浙江鹏信信息科技股份有限公司 | 网页恶意篡改识别方法、系统及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113946677B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN117539996A (zh) | 一种基于用户画像的咨询问答方法及系统 | |
CN117573869A (zh) | 一种网络引接资源关键要素提取方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112732942A (zh) | 一种面向用户的多轮问答法律文书实体关系抽取方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN113836941A (zh) | 一种合同导航方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |