CN113378024A

CN113378024A - 一种基于深度学习面向公检法领域的相关事件识别方法

Info

Publication number: CN113378024A
Application number: CN202110566115.7A
Authority: CN
Inventors: 赵铁军; 徐冰; 杨沐昀; 郭常江; 朱聪慧; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-10
Anticipated expiration: 2041-05-24
Also published as: CN113378024B

Abstract

本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1：采集网络上各种热点信息标题，进行非中文、非英文、非数字字符的清理并存储在数据库中；步骤2：对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关；步骤3：对步骤1数据库中的热点信息标题做出相应标识并存储。本发明用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。

Description

一种基于深度学习面向公检法领域的相关事件识别方法

技术领域

本发明属于自然语言处理领域；具体涉及一种基于深度学习面向公检法领域的相关事件识别方法。

背景技术

舆情分析是一种对社会舆论信息、热点事件进行收集，从不同维度对事件进行分析，以帮助决策者得到合理的决策的技术。

复杂又庞大的网络数据实质上可以分成两种数据类型，一种是结构化的数据，例如社交网络等，另外一种是非结构化的数据，如我们常见的网络评论文本和新闻报道文本。其中新闻报道以文字量大、影响力广为优势，成为舆情分析中的重要一环。

不同领域的舆情信息铺天盖地，糅杂在一起，而针对不同的需求，可能只需要分析其中某一个领域的舆情，而忽略其他领域的舆情，例如本发明就是针对公检法领域的舆情进行分析。而如果不加以区分，对所有的舆情都进行分析，将会有以下几个问题：

一、舆情量过大，导致在分析舆情信息时将花费大量无用时间去处理其他领域的舆情，而这些领域却是不需要关注的舆情信息，无故占用有限的计算资源，对后期分析工作造成困扰；

二、由于各种领域的舆情都进行分析，成功分析出所有舆情信息后，导致业务人员在使用舆情系统的时候需要自己逐条判断该条舆情分析结果对自己目前所遇到的情况做出判断有没有帮助。相同领域的信息帮助是最大的，而对于不同领域的舆情来说，这种帮助是微乎其微的，反而会给业务人员造成负担，降低工作效率。

发明内容

本发明公开一种基于深度学习面向公检法领域的相关事件识别方法，用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。

本发明通过以下技术方案实现：

一种基于深度学习面向公检法领域的相关事件识别方法，所述识别方法包括以下步骤：

步骤1：采集网络上各种热点信息标题，进行非中文、非英文字符和非数字符号的清理并存储在数据库中；

步骤2：对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关；

步骤3：对步骤1数据库中的热点信息标题做出相应标识并存储。

进一步的，所述步骤1具体包括以下步骤：

步骤1.1：爬取得到原始的HTML网页文本，将其编码格式转为UTF-8编码；

步骤1.2：对于不同网站的热点信息列表，分析源码，锁定该网站热点信息所在的标签；

步骤1.3：使用Xpath语言，从HTML网页当中提取出热点信息标题文本；

步骤1.4：使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题；

步骤1.5：将清理过的热点信息标题按照时间顺序存储在数据库当中。

进一步的，所述步骤2具体包括以下步骤：

步骤2.1：从网络上实时获取热点舆情的短文本标题，清洗过后从中随机抽取出10,000条标题文本；

步骤2.2：基于步骤2.1随机抽取出的10,000条标题文本，进行人工标注，作为训练语料库；

步骤2.3：基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1，不相关的标注为0。

进一步的，所述步骤2具体为：

基于文本表示技术将文本转化为向量的表示形式，使用Word2Vec模型进行预处理获得词向量，将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取，即获取其语义表示，使用该语义表示完成分类；

所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型；

搭建好模型之后，使用训练语料库进行训练；

使用训练好的三个模型的识别结果进行投票，确定某一标题文本对应的舆情事件是否属于公检法领域。

进一步的，所述步骤2具体为，基于文本表示技术将文本转化为向量的表示形式，使用BERT预训练模型的识别模型进行预处理获得句子向量，即获取其语义表示，使用该语义表示完成分类。

进一步的，所述Word2Vec词向量模型具体训练方式如下：

步骤W2.1：使用构建好的数据集，去掉其中重复的文本，仅保留文字部分；

步骤W2.2：使用Jieba分词技术，将每一个标题文本拆分成单个的单词；

步骤W2.3：将分词结果投入到Word2Vec模型中进行训练，得到词向量。

进一步的，所述步骤2具体包括以下步骤：所述RCNN的识别模型主要构建流程包括以下步骤是：

步骤R2.1：利用词向量，将输入到网络中的文字映射为向量，即Embedding Layer；

步骤R2.2：利用双向LSTM结构获得句子的上下文信息，并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput，wordEmbedding，bwOutput]向量，其中fwOutput是LSTM结构正向迭代的隐藏层输出结果，wordEmbedding是输入的词对应的词向量，bwOutput是LSTM结构反向迭代的隐藏层输出；将拼接后的向量非线性映射到低维；

步骤R2.3：对上述的低维向量中的每一个位置的值都取所有时序上的最大值，得到最终的特征向量；

步骤R2.4：使用线性层将步骤R2.3的Max-pooling Layer结果映射成二维向量；

步骤R2.5：使用Softmax进行分类，得到分类结果。

进一步的，所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤：

步骤Bi2.1：利用词向量，将输入到网络中的文字映射为向量，即EmbeddingLayer；

步骤Bi2.2：将Embedding Layer的输出输入到双向LSTM当中，得到正向的输出fwOutput和反向的输出bwOutput，将两个向量拼接到一起：[fwOutput，bwOutput]，用这样一个向量代表原文本的上下文语义，即LSTM Layer；

步骤Bi2.3：对步骤步骤Bi2.2得到的拼接向量计算注意力，具体公式如下：

e_ij＝tanh(W_wh_ij+b_w)

其中的，W_w,b_w,u_w是待学习参数，a_ij代表最后的注意力分布，即第i个句子中第j个词的注意力数值，即AttentionLayer；

步骤Bi2.4：使用注意力结果和拼接向量[fwOutput，bwOutput]加权求和，输入到线性层得到最后的网络输出Output，经过Softmax函数得到分类结果，即LinearLayer和Output Layer。

进一步的，所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤：

步骤BE2.1：将文本按照BERT要求的格式输入到BERT模型中，经过BERT的计算得到特征向量feature，该向量代表了文本的语义，即BERTLayer；

步骤BE2.2：将该特征向量经过一层线性连接层映射为一个2维的向量output，即LinearLayer；

步骤BE2.3：步骤BE2.2的output向量经过一层Softmax层，得到分类结果。

进一步的，所述步骤2对步骤1的数据集，按照8:2的比例分成两部分，分别作为训练模型的训练集和测试集，其中，三个模型在训练时使用的优化器均为Adam，神经网络的损失函数均为交叉熵损失函数(针对二分类问题)，其中交叉熵损失函数的具体定义如下：

loss＝-ylogy'-(1-y)log(1-y')

其中，y代表实际的人工标注的标签，y'代表模型的预测结果。

本发明的有益效果是：

本发明通过抓取网络的热点信息标题、识别标题是否与公检法领域相关，从而筛选出与公检法领域相关的热点事件并进行显示。

本发明方法使得公检法相关的工作人员可以不必手动去关注网络上的各种热点事件，只需使用本系统便可以轻松快捷地了解到当前网络上和公检法相关的热点事件；如果有针对公检法领域的舆情系统，也能通过本发明迅速锁定需要关注的热点事件，避免花费在其他非公检法领域的热点事件的追踪，可有效减少资源的消耗。

本发明完全是自动化的抓取、识别、展示的过程，可大大降低人力消耗。

附图说明

图1为本发明的流程图。

图2为本发明中训练语料构建流程图。

图3为本发明中RCNN分类模型图。

图4为本发明中Bi-LSTM+Attention的分类模型。

图5为本发明中结合BERT的分类模型。

图6为本发明中2021年1月22日新浪微博的热搜榜1-25条详情。

图7为本发明中2021年1月22日新浪微博的热搜榜26-50条详情。

图8为本发明中相关事件识别结果样例图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

进一步的，所述步骤1具体包括以下步骤：

步骤1.1：爬取得到原始的HTML网页文本，将其编码格式转为UTF-8编码；如果已经是，则无需转换；

进一步的，所述步骤2具体包括以下步骤：

检查步骤2.2人工标注文本中是否有误，若发现错误，则重新标注出错的文本；若多次检查发现没有错误，则停止标注，语料构建完成；

进一步的，所述步骤2具体为：

所涉及到的深度学习方法，指的是通过对文本进行建模，学习到其中语义信息，根据该语义信息进行自然语言处理中的文本分类；

在实施过程中，基于文本表示技术将文本转化为向量的表示形式，使用Word2Vec模型进行预处理获得词向量，将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取，即获取其语义表示，使用该语义表示完成分类；

搭建好模型之后，使用训练语料库进行训练；

所述步骤2具体为，基于文本表示技术将文本转化为向量的表示形式，使用BERT预训练模型的识别模型进行预处理获得句子向量，即获取其语义表示，使用该语义表示完成分类。

进一步的，步骤2中使用的词向量获取方式是使用到Word2Vec模型。该模型可以达到将一个词与一个指定维度的向量一一对应效果。因为词是文本，神经网络中参与计算的是数字，因此文本形式的词不能直接参与计算，需要将其转化成数字的形式，词向量便是其中的一种。

所述Word2Vec词向量模型具体训练方式如下：

步骤R2.5：使用Softmax进行分类，得到分类结果。

e_ij＝tanh(W_wh_ij+b_w)

进一步的，使用BERT网络结构作为模型核心。模型使用到预训练模型BERT，是谷歌在2018年发布的开源模型，本次使用到的版本是BERT-Base，其参数设置如下：中文词表大小：21128；网络层次数目：12层；隐藏层神经元数目：768；多头注意力数目：12。所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤：

进一步，所述步骤2对步骤1的数据集，按照8:2的比例分成两部分，分别作为训练模型的训练集和测试集，其中，三个模型在训练时使用的优化器均为Adam，神经网络的损失函数均为交叉熵损失函数(针对二分类问题)，其中交叉熵损失函数的具体定义如下：

loss＝-ylogy'-(1-y)log(1-y')

步骤2中使用的投票是指，针对某一个热点信息标题文本，三个模型都有自己的识别结果，要么为“1”，要么为“0”。所谓的投票即取三个识别结果中较多的类别作为该短文本最终识别结果。例如三个模型中有两个或者三个模型识别结果相同，均为“1”，那么该文本的最终识别结果即为“1”——属于公检法领域；相反若有两个或者三个模型识别结果相同，均为“0”，那么该文本的最终识别结果即为“0”——不属于公检法领域。

步骤3中所使用的数据库是MongoDB数据库，以字典的形式存储数据。在数据库中，根据模型的识别结果，为每一个热点信息标题进行标识，并挑选出热点信息文本标识为“1”的文本，按照时间由近到远的顺序排列存储在另一个数据库中，方便随时查找。

实施例2

如图1所示，使用本发明搭建的系统分为两个部分：算法部分和数据存储部分。算法部分主要包括HTML网页获取、热点标题文本提取和清洗、模型识别、模型投票进行标识四部分；数据存储部分主要是在爬取到网页上的热点信息标题后进行存储以及算法端识别之后更新数据库中的标识两部分。

图6和图7是2021年1月22日新浪微博的热搜榜，两张图中分别截取了热搜榜的前25条热搜和后25条热搜，共计50条热搜。

本发明所实现的系统启动之后，会先加载预先训练好的三个模型到内存当中；之后启动爬虫模块，实时采集网络舆情热点信息，主要涉及到的网站包括微博、百度、搜狐、微信等，将热点短文本暂存在系统数据库中，本例子中只是用了微博作为示例，但是并不代表另外几个网站没有获取到；

爬虫进程将爬取到的热点信息标题(这里实际上是微博热搜的标题)存储在系统数据库中；同时另一进程从系统数据库依次取出热点信息标题文本，使用内存中加载好的三个模型进行识别，并使用“投票”的方式决定最终该文本描述的事件是否属于公检法领域。识别结束后该进程会更新数据库系统中该文本对应的表示，并且将属于公检法领域的热点短文本，存储在系统数据库中指定的集合中；

当以上过程中中发生异常时，后台算法部分和爬虫部分终止，退出系统。

发明最终的实际运行结果可见图8所示。根据识别的结果可以看见在50个微博热搜中，系统识别出其中的6个与公检法领域相关的热搜，占全部的12.0％。相关工作人员只需从数据库中或者使用浏览器进行查询，即可获得所需信息，完全无需逐个查看。实例中只展示了微博热搜的50条，实际上每天产生的各种热点信息是上百甚至接近上千条，使用本发明进行筛选，用户工作量的减少将是十分可观的。并且，可以看出如果本系统和其他舆情分析系统相结合，可以有针对性地筛选出公检法领域的舆情进行单独分析，实现智能化、快速化、定制化分析，提高用户工作效率。

Claims

1.一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述识别方法包括以下步骤：

步骤1：采集网络上各种热点信息标题，进行非中文和英文字符的清理并存储在数据库中；

2.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求2所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤2具体包括以下步骤：

4.根据权利要求3所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤2具体为：

搭建好模型之后，使用训练语料库进行训练；

5.根据权利要求3所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤2具体为，基于文本表示技术将文本转化为向量的表示形式，使用BERT预训练模型的识别模型进行预处理获得句子向量，即获取其语义表示，使用该语义表示完成分类。

6.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述Word2Vec词向量模型具体训练方式如下：

7.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤2具体包括以下步骤：所述RCNN的识别模型主要构建流程包括以下步骤是：

步骤R2.5：使用Softmax进行分类，得到分类结果。

8.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤：

步骤Bi2.1：利用词向量，将输入到网络中的文字映射为向量，即Embedding Layer；

e_ij＝tanh(W_wh_ij+b_w)

步骤Bi2.4：使用注意力结果和拼接向量[fwOutput，bwOutput]加权求和，输入到线性层得到最后的网络输出Output，经过Softmax函数得到分类结果，即LinearLayer和OutputLayer。

9.根据权利要求5所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤：

步骤BE2.2：将该特征向量经过一层线性连接层映射为一个2维的向量output，即Linear Layer；

10.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法，其特征在于，所述步骤2对步骤1的数据集，按照8:2的比例分成两部分，分别作为训练模型的训练集和测试集，其中，三个模型在训练时使用的优化器均为Adam，神经网络的损失函数均为交叉熵损失函数，其中交叉熵损失函数的具体定义如下：

loss＝-ylogy'-(1-y)log(1-y')