CN112527956A

CN112527956A - 一种基于深度学习的食品安全舆情事件提取方法

Info

Publication number: CN112527956A
Application number: CN202011422197.XA
Authority: CN
Inventors: 左敏; 孙劭芃; 张青川; 颜文婧
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-19

Abstract

本发明提供一种基于深度学习的食品安全舆情事件提取方法，能够及时为政府相关舆情管理者和公众提供食品安全相关舆情的最新内容。所述方法包括：搭建食品安全舆情语料库库；与开放域的word embedding资源库融合，搭建食品安全舆情Embedding资源库；对舆情预料进行实体关系标注，并加入语义角色注意力机制对舆情事件进行信息要素提取；搭建舆情提取模型，将舆情信息要素输入模型进行舆情事件的提取。本发明能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件，能够以最少的时间成本获取更为丰富、更具价值的舆情信息资源。

Description

一种基于深度学习的食品安全舆情事件提取方法

技术领域

本发明涉及人工智能领域，特别是指一种基于深度学习的食品安全舆情事件提取方法。

背景技术

近年发生的一些食品安全事件中，媒体群体表现最为活跃，是核心参与者、舆论主导者。一方面，媒体大规模发布、转载食品安全事件信息，促使其最终演变为网络热点事件；另一方面，由于专业性食品安全知识的匮乏，乃至道德缺失，媒体极有可能成为虚假信息的发源地，诱发公众恐慌甚至影响社会稳定。通过对食品安全舆情事件的提取，能够及时为政府相关舆情管理者和公众提供食品安全相关舆情的最新内容。使政府可提前对舆情及相关食品安全问题进行正确、有效的引导和治理举措，避免出现大范围的舆情混乱，在降低公共安全维护成本的同时，也符合和谐社会发展的必然要求。

食品安全领域是一个相对来说比较固定的领域，领域内的实体来说相对也比较固定，因此需要提前收集并整理食品安全领域内的实体知识，于此同时在互联网上因为食品安全属于较敏感的事件，因此在对食品安全事件的监控上也提出了要求，我们可以采用成熟的爬虫技术获取互联网中关于食品安全的舆情报道文本，并对文本进行分析处理。

因为之前的研究大部分都是集中在对开放领域内的文本进行分析研究的，因此当这些技术应用在食品安全这个固定领域上面的时候会存在很多已知的特征函数在对文本分析起到重要的作用，提前获知这些特征对文本语义分析有重要的帮助，因此提前获取食品安全领域内的专业知识对于研究有很大的帮助。

在神经网络的飞速发展的时候，长短时记忆网络(LSTM)以及Attention机制的发展，对于机器能更好的处理自然语言起了至关重要的作用，因此在对于这两方面相关技术的研究将是本次研究的重点应用方面。

这些关键技术的发展大多集中在对英文文本的处理或者对其他领域的发展。例如在实体识别领域，Huang Z提出的一种Bi-LSTM-CRF网络在对文本中词性标注上面具有较好的效果，并且这种网络对于词向量的依赖较小。对于信息抽取方面，因为当设计合适的神经网络的时候，能够捕捉更多的信息，进而更准确的完成关系的抽取，因此我们采用Zeng D提出的CNN模型来实现对句子级信息的捕获，而且不需要依赖复杂的句法分析工具。针对领域内的实体特殊性，我们还采用爬虫技术来对互联网上关于食品安全领域内的中文文本进行定向爬取。

现有的语言模型难以在互联网文本环境下精确处理食品领域的问题。然而，现在网络上已经有大量的大规模公共领域语料和公共领域word Embedding资源库，为本研究构建一种融合领域知识的Embedding资源库提供了途径。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于深度学习的食品安全舆情事件提取方法，为了能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件，能够以最少的时间成本获取更为丰富、更具价值的舆情信息资源。

为了达到上述目的，本发明所提出的方法是：一种基于深度学习的食品安全舆情事件提取方法，包括以下步骤：

步骤1、构建食品领域舆情语料库，用于存储爬取的舆情语料；

步骤2、基于开放域的word embedding资源库，与食品领域舆情语料库相结合，搭建食品安全舆情Embedding资源库；

步骤3、利用实体关系抽取相关技术，判断出食品领域舆情语料库中舆情发生的准确的时间、地点、事件描述以及单位，并从食品安全舆情Embedding资源库中提取词向量，形成舆情信息要素作为舆情事件的提取模型的输入；

步骤4、构建K-means-sLDA模型，作为舆情事件的提取模型，利用步骤3中提取出的舆情信息要素对步骤1中的食品领域舆情语料库中的舆情进行聚类分析，并将该舆情进行标签标注，用于对新爬取的舆情语料进行分类，转化成有标签变量的舆情文本；最后对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取，从而提取舆情事件话题。

进一步的，食品领域舆情语料库包括：舆情语料的来源链接、发布日期、发布方、文章类别、文章标题、文章概述、文章正文信息，并将其作为基础语料用于步骤2中食品安全舆情Embedding资源库的搭建及步骤3中舆情信息要素的提取。

进一步的，在开放域word embedding资源库基础上，结合skip-gram模型和字词语义表示，将步骤1中，食品领域舆情语料库中的语料进行词向量训练，形成食品安全舆情的word embedding语义资源库。

进一步的，对新爬取的舆情事件文本进行分类的同时，将新舆情事件加入语料库，以天为单位，更新文本聚类分析，以保证事件提取与分类达到最优效果。

进一步的，对于舆情事件的提取，拟使用K-means-sLDA模型。首先使用K-means算法对舆情文本数据进行文本聚类，综合聚类组内平方和法和轮廓系数法寻找最优的聚类簇数量，对舆情文本进行分类。其次，将最优聚类簇数量作为舆情文本的主题数量K，将K作为sLDA模型的输入变量。然后将文本分类结果作为标签变量，将无标签变量舆情文本数据转化成有标签变量的文本数据。最后，对有标签变量的舆情文本使用sLDA模型进行文本隐含主题提取，从而提取舆情事件话题。

本发明与现有技术相比的优点在于：

(1)构建食品安全领域舆情语料库及食品安全舆情Embedding资源库。由于现有技术的公共语料相对较少，特别是经过加工的基准语料还比较缺乏，本发明构建完成更全面、针对性更强的食品领域舆情的语料库及食品安全舆情Embedding资源库；

(2)基于Attention机制的Bi-LSTM关系抽取模型的食品安全领域舆情文本中信息要素提取模块。能够更加准确的提取舆情中的时间、地点、单位以及事件描述等因子。

(3)K-means-sLDA舆情提取模型的开发，运用K-means-sLDA模型对食品安全领域舆情文本进行事件提取，能通过网络中海量食品安全相关的文章、报道、新闻中快速的提取、总结出准确的舆情事件，能够以更少的时间成本获取更为丰富、更具价值的舆情信息资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实例提供的基于深度学习的食品安全舆情事件提取的方法流程示意图；

图2为卷积神经网络模型示意图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的方法，其流程如图1所示，包括：

在图2所示实施例中，本发明通过双向长短期记忆网络进行舆情文本实体关系的抽取。在实体关系抽取中，先对食品领域舆情语料库的语料进行文本向量化处理。之后将得出的词向量作为BLSTM网络层的输入，由BLSTM网络生成隐层向量进行下一步的计算。而后模型将会引入网络注意力机制，首先，将食品安全舆情Embedding资源库与当前的每个词语进行逐一匹配，在经过基于位置感知的领域词语义注意力机制的计算后，得出影响向量，将影响向量传播到BLSTM隐层向量中结合计算，从而影响BLSTM的输出结果。在网络的输出层采用了SoftMax函数，对于每种关系进行归一化处理，得到每种关系的概率值。

计算方法即：P(q|S)＝SoftMax(w_vV+b_v) (1)

在公式(1)中，S为输入的句子，q为预测的关系概率，w_v为权重，V为输出向量，b_v为偏置向量。对于实体标注部分，输入句子的每一个词会被指派一个实体标签，本发明中的标签采用相同的编码模式：0-1标签(1是主体或者客体)。因此，实体标注问题可以转变为：对于给定的长度为n的句子S＝(s₁，…s_t，…s_n)，假设标注输出结果为Q＝(q₁，…q_t，…q_n)，在已知序列S下，找出使得Q＝(q₁，…q_t，…q_n)的概率P＝(q₁，…q_t，…q_n)最大的序列[q₁，…q_t，…q_n]。

在公式(2)中，其中的

是一个隐含函数。其中，h为隐向量，b为偏置向量，W、z均为权重。在这里，使用维特比算法进行有效的解码运算，解码时最高条件概率为：

上述内容对本发明具体实施方式进行了描述，但本发明的保护范围并不局限上述实施方式的范围，任何在本发明技术范围内所做的变化或替换，均在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的食品安全舆情事件提取方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法，其特征在于：所述步骤1中，食品领域舆情语料库包括：舆情语料的来源链接、发布日期、发布方、文章类别、文章标题、文章概述、文章正文信息，并将其作为基础语料用于步骤2中食品安全舆情Embedding资源库的搭建及步骤3中舆情信息要素的提取。

3.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法，其特征在于：所述步骤2中，在开放域word embedding资源库基础上，结合skip-gram模型和字词语义表示，将步骤1中，食品领域舆情语料库中的语料进行词向量训练，形成食品安全舆情的wordembedding语义资源库。

4.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法，其特征在于：所述步骤4中，对新爬取的舆情事件文本进行分类的同时，将新舆情事件加入语料库，以天为单位，更新文本聚类分析，以保证事件提取与分类达到最优效果。

5.根据权利要求1所述的基于深度学习的食品安全舆情事件提取方法，其特征在于：所述步骤4中，构建K-means-sLDA模型具体为：首先使用K-means算法对舆情进行文本聚类，综合聚类组内平方和法和轮廓系数法寻找最优的聚类簇数量，对舆情进行分类；其次，将最优聚类簇数量作为舆情文本的主题数量K，将K作为sLDA模型的输入变量。