CN110457562A

CN110457562A - 一种基于神经网络模型的食品安全事件分类方法及装置

Info

Publication number: CN110457562A
Application number: CN201910754927.7A
Authority: CN
Inventors: 郑丽敏; 郑瑾
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-15

Abstract

本发明涉及一种基于神经网络模型的食品安全事件分类方法。该方法包括：从网站获取食品安全事件的相关数据；构建食品安全领域专用词典，情感分析词典和地理位置信息词典；对获取的数据进行正文提取、分词、去停用词和词性标注处理；构建文本分类模型，该模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层。词嵌入层用于文本的分布式表示，双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系，注意力机制层根据文本特征对分类的重要性为其分配不同的权重，最后使用分类层实现食品安全事件的分类。本方法能够根据国家食品安全事件分级标准，对网站上获取的食品安全事件进行快速准确的分类。

Description

一种基于神经网络模型的食品安全事件分类方法及装置

技术领域

本发明涉及人工智能和计算机技术领域，更具体的，涉及一种基于神经网络模型的食品安全事件分类方法及装置。

背景技术

随着经济和社会的发展，食品安全已成为人民群众日常生活中的热点问题，民众对食品安全提出了更高的诉求。近年来，农药残留超标、食品添加剂过量等各类食品安全事件在我国频繁发生，我国食品安全现状不容乐观。互联网上有海量的食品安全相关信息，记录了食品安全模式的演化过程，蕴含了事件发展规律。通过获取食品安全状态、分析食品安全事件的发展规律并对可能发生的事件预警，能够保障社会食品安全、建立有效监管规范、减少事件发生造成的损失。然而这些食品安全信息，涉及各个领域，形式复杂多样，主题内容繁多，不利于人们快速、有效的获取有用的信息，如何从海量的互联网资源中提取出有效的食品安全相关信息，如何利用相关事件发展规律进行食品安全事件的判别、分析与预警，是食品安全领域需要研究的内容。利用数据挖掘中文本分类的方法能够获取更多有价值且更具有针对性的信息，方便相关部门根据这些不同种类的食品安全事件发生的特点，采取相应的监管和预防措施。

现有的传统的有监督学习文本分类方法侧重于设计手工制作的特征，但由于食品安全事件具有有限的上下文信息和稀疏的语义，很难获得有用的分类特征，并且食品安全信息中包含一些对分类起决定性作用的词语，而传统的有监督学习文本分类方法无法将其提取出。食品安全领域的文本包含大量的专有名词，食品安全事件一般也都会涉及发生区域，传统的有监督学习文本分类方法不能有效的把这些专有名词提取出来，大大降低了分类效果。

为了解决上述问题，需要一种基于深度学习的方法尤其是神经网络模型用于食品安全事件的分类，不需要繁琐的人工特征工程，能够有效的提取相关特征，使用注意力机制动态学习有助于分类决策的词语，并在食品安全事件分类模型中添加食品安全领域专用词典，情感分析词典和地理位置信息词典，提高模型的分类性能，以便准确获取有效的食品安全信息。

发明内容

为了将食品安全事件快速准确的分类，能够获取更多有价值且更具有针对性的信息，本发明提供了一种基于神经网络模型的食品安全事件分类方法，包括：

从各省市食品安全信息发布的网站获取食品安全事件的相关数据；

根据所述食品安全事件的相关数据构建食品安全领域专用词典，情感分析词典和地理位置信息词典；

根据所述食品安全领域专用词典，情感分析词典和地理位置信息词典对所述食品安全事件的相关数据进行正文提取、分词、去停用词和词性标注等预处理；

将所述文本分类模型用于提取所述预处理后文本的特征，所述模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层。所述词嵌入层用于对文本的分布式表示，word2vec网络中的skip-gram模型将文本表示成词向量，所述双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系且双向的网络结构可缓解信息不平衡的问题，所述注意力机制层根据文本特征对分类的重要性使用双线性注意力函数，以较少的参数获得隐藏层状态间的交互为这些特征分配不同的权重，所述分类层实现最终的食品安全事件的分类。

优选地，所述食品安全事件的获取来源于各地政府、企事业单位、科研机构等专门发布食品安全信息的网站。

优选地，所述食品安全领域专用词典包括食品添加剂、农药、兽药、天然毒素、化学污染物中的专有名词，所述情感分析词典包括大量的与食品安全事件描述相关的正面和负面的情感词汇，所述地理位置信息词典包含中国省份、城市、区县、乡镇和村庄的地理位置名词。

优选地，所述食品安全事件的相关数据的预处理操作包括根据所述词典对食品安全事件进行分词，去除无效信息，对书写不规范的词规范化处理，还原缩略词，删除有歧义的网络用语和表情符号。

优选地，所述模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层。

所述词嵌入层用于对文本的分布式表示，使用word2vec网络中skip-gram模型训练词向量，将每个词训练后表示成为一个低维、连续的实值向量。

所述双向循环神经网络层中使用的是双向的长短期记忆网络，所述网络使用一种“门”的存储结构实现去除或者增加信息的功能，通过学习控制信息流，捕获句子中词之间的长期依赖性。所述网络的双向结构由两个相反方向的循环层组成，分别从正向和反向返回两个隐藏状态序列，连接成一个固定维数的向量，来减轻因文本过长而造成的信息量不平衡问题。

所述注意力机制层将所述双向循环神经网络层生成的文本表示作为判别基准，学习不同位置的状态权重，对文本分类更重要的特征被赋予更高的权重，使用向量的加权线性组合来获得最优的特征维数。所述注意力机制层使用的注意力得分函数是双线性注意力函数，可使用较少的参数获得所述隐藏层状态间的交互。

所述分类层使用的是一个逻辑回归分类器，将所述注意力机制层的固定维数作为输入，仿射变换后由softmax函数计算食品安全事件被分为特别重大事件、重大事件、较大事件和一般事件的概率。

优选地，所述模型对食品安全事件分类的标准分为特别重大：食品安全事件影响范围涉及2个以上省份，出现30人以上死亡，造成特别严重的健康损害后果；重大:食品安全事件影响范围涉及2个以上社区市，造成健康损害人数在100人以上并出现死亡病例，或出现10人以上、30人以下死亡，发现在我国首次出现的新的污染物引起的食品安全事件，造成严重健康损害后果，并有扩散趋势；较大：食品安全事件影响范围涉及2个以上县(市、区)，造成健康损害人数在100人以上，或出现10人以下死亡病例，造成较为严重的健康损害后果；一般：存在健康损害的污染食品，在1个县(市、区)行政区内造成严重健康损害后果，食品安全事件造成健康损害人数在30人以上、100人以下，且未出现死亡病例。

优选地，所述方法由不同模块构成，包括：

获取模块，用于获取待分类的食品安全事件；

构建模块，用于根据所述食品安全事件构建食品安全领域专用词典，情感分析词典和地理位置信息词典；

处理模块，将所述的食品安全事件进行预处理操作，包括去重、删除无效信息、分词、去停用词和词性标注；

分类模块，将所述预处理后的食品安全事件输入所述分类模型，输出所述食品安全事件的类别；其中，所述深度学习神经网络模型是经过多次训练、调参、取优后得到的。

本发明提供的一种基于神经网络模型的食品安全事件分类方法，首先从各省市食品安全信息发布的网站获取食品安全事件的相关数据。然后根据食品安全事件的相关数据构建食品安全领域专用词典，情感分析词典和地理位置信息词典。再根据词典对食品安全事件的相关数据进行正文提取、分词、去停用词和词性标注等预处理。最后将预处理后的文本作为文本分类模型的输入，模型中的词嵌入层用于对文本的分布式表示，将文本表示成词向量；模型中的双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系；模型中的注意力机制层根据特征对文本分类的重要性为其分配不同的权重，模型中的分类层实现最终的食品安全事件分类。本发明采用基于深度学习的神经网络文本分类模型对各省市食品安全信息网站发布的食品安全事件分类，根据食品安全事件分级标准得到其所属的类别，能够获取更多有价值且更具有针对性的信息。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

下面结合附图和具体实施方式对本发明进行详细描述：

图1为根据本发明实施例提供的一种基于神经网络模型的食品安全事件分类方法的流程示意图；

图2为根据本发明实施例提供的一种基于神经网络模型的食品安全事件分类方法的词典构成示意图；

图中，1.食品安全领域专用词典；2.情感分析词典；3.地理位置信息词典；

图3为根据本发明实施例提供的一种基于神经网络模型的食品安全事件分类方法的神经网络模型示意图；

图4为根据本发明实施例提供的一种基于神经网络模型的食品安全事件分类方法的模块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一模块实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为根据本发明实施例提供的一种基于神经网络模型的食品安全事件分类方法的流程示意图，参照图1，该方法包括：

步骤101，从各省市食品安全信息发布的网站获取食品安全事件的相关数据；

具体地，本实施例中，食品安全信息来源于各地政府、企事业单位、科研机构等发布食品安全信息的网站，包括来自各省市级政府办公厅、安全委员会主办的食品安全信息网、各省市级食品药品监督管理局主办的食品药品检验信息发布网、各省市卫生局、卫生监督所、科学研究机构、研究院、具有公信力的电台、报社、新闻网专栏发布的食品安全信息。

步骤102，构建食品安全领域专用词典，情感分析词典和地理位置信息词典；

具体地，本实施例中，食品安全领域专用词典包括食品添加剂、农药、兽药、天然毒素、化学污染物中的专有名词，情感分析词典包括大量的与食品安全事件描述相关的正面和负面的情感词汇，如程度词、主张词、负面评价词、负面感情词、正面评价词和正面感情词等，所述地理位置信息词典包含中国省份、城市、区县、乡镇和村庄的地理位置名词。

例如，图2的1中列举了食品安全领域中食品添加剂词典、农药词典、兽药词典、天然毒素词典和化学污染物词典，食品添加剂词典中列举了部分食品添加剂的名称、功能以及种类，农药词典中列举了部分农药的名称、毒性、功效以及化合物，兽药词典中列举了部分兽药的中文通用名、中文商品名以及中文化学名，天然毒素词典中列举了部分毒素的中文通用名、中文商品名以及中文化学名，化学污染物词典中列举了部分化学污染物的名称；图2的2中列举了情感分析词典，列举了描述食品安全事件中常用的部分程度词、主张词、负面评价词、负面感情词、正面评价词和正面感情词；图2的3中列举了地理位置信息词典，列举了部分省份、城市以及对应的区县，这些词典对食品安全事件文本分词具有很大的帮助，只有分词更加准确，后续由分类模型得到的特征表示才能更加的准确，使模型达到最大的分类性能。

步骤103，对步骤101中获取的数据进行正文提取、分词、去停用词和词性标注等预处理；

具体地，本实施例中，预处理操作涉及去除重复文本，去除相似度较高的文本，去除干扰数据，提取正文，分词，词性标注等。

进一步地，去除重复文本是指去除那些数据来源不同但是描述的食品安全信息完全相同的文本；去除相似度较高的文本是使用余弦相似度计算，将文本内容相似度高于80％的文本去除；去除包含大量空格的无效信息，提取正文中字数大于200字的食品安全事件；根据步骤102中构建的词典对食品安全事件进行分词，对书写不规范的词规范化处理，还原缩略词，删除有歧义的网络用语和表情符号。

步骤104，将步骤103预处理后的文本输入到构建的神经网络分类模型中，输出该文本所属的类别；

具体地，本实施例中，图3中的文本分类模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层。词嵌入层用于文本的分布式表示，双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系，注意力机制层根据文本特征对分类的重要性为其分配不同的权重，最后使用分类层实现食品安全事件的分类。

进一步地，词嵌入层实现文本中词的分布式表示，使用word2vec网络中skip-gram模型训练词向量，将每个词训练后表示成为一个低维、连续的实值向量。skip-gram模型根据当前词来预测周围的词，每个词向量都表现了上下文的文本情况，该模型用于计算指定窗口内两词之间相似的概率。word2vec网络模型通过统计词频，根据统计的词频构造Huffman树，生成节点所在的二进制编码，初始化各个非叶子节点的中间向量和叶子节点的向量，训练中间向量，从而将文本中的词表示成词向量作为双向循环神经网络层的输入。

本实施例中，图3中双向循环神经网络层中使用的是双向的长短期记忆网络(LSTM)，所述网络使用一种“门”的存储结构实现去除或者增加信息的功能，通过学习控制信息流，捕获句子中词之间的长期依赖性。LSTM首先通过“忘记门”决定从细胞中丢弃哪些信息：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

然后进入“输入门”决定要更新的信息，通过tanh层创建一个新的候选值向量Gt：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

G_t＝tanh(W_G·[h_t-1,x_t]+b_G)

将旧细胞状态S_t-1与f_t相乘，丢弃掉无用的信息，再加上i_t和G_t的乘积，得到新的候选值，更新旧的细胞状态：

S_t＝f_t*S_t-1+i_t*G_t

最后，根据细胞状态S_t，决定最终要输出的值。首先通过sigmoid门来确定细胞状态的哪个部分将被输出，然后把细胞状态通过tanh门处理后将它与sigmoid门输出的O_t相乘，最终仅输出确定要输出的部分：

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(S_t)

其中，W_{f,i,G,o}表示LSTM的权重矩阵，b_{f,i,G,o}表示LSTM的偏移量，f_t,i_t,o_t分别表示LSTM的忘记、输入和输出的权重值，σ和tanh分别表示sigmoid函数和双曲正切函数，G_t和h_t分别表示在t时刻的LSTM的记忆表示和隐藏层状态表示。

优选地，双向循环层由两个相反方向的循环层组成，分别从正向和反向返回两个隐藏状态序列，将其连接成一个固定维度向量作为文本表示并输出：

注意力机制层使用向量的加权线性组合来获得最优的特征维数，使对文本分类更重要的特征被赋予更高的权重。注意力机制层将上一个隐藏层状态作为判别标准，并结合当前隐藏层状态生成一个分数，代表分配的注意力大小：

h_t，h_s表示上一个隐藏层状态和当前的隐藏层状态，w_a这个矩阵学习如何将不同权重分配到点乘的不同部分。然后计算隐藏层状态的注意力权重分布a_t(s)，将得分放入softmax函数中，返回一个概率分布，代表不同位置应该分配多少的注意力：

最后将LSTM输出的每一个隐藏层状态和注意力机制给出的权重加权求和得到文本表示,作为分类层的输入：

C_t＝∑_sa_t(s)h_s

优选地，一种基于神经网络模型的食品安全事件分类方法中注意力机制层使用的注意力得分函数是双线性注意力函数，可以使用较少的参数获得隐藏层状态间的交互。

分类层使用的是一个逻辑回归分类器，将注意力机制层的固定维数作为输入，仿射变换后由softmax函数计算食品安全事件被分为特别重大事件、重大事件、较大事件和一般事件的概率：

其中，W表示权重值，b表示偏置值，K为所分类别个数。

图4为本发明提供的一种基于神经网络模型的食品安全事件分类装置的模块图，该装置包括获取模块401、构建模块402、处理模块403、分类模块404，其中：

获取模块401，用于获取待分类的食品安全事件；

构建模块402，用于根据所述食品安全事件构建食品安全领域专用词典，情感分析词典和地理位置信息词典；

处理模块403，将所述的食品安全事件进行预处理操作，包括去重、删除无效信息、分词、去停用词和词性标注；

分类模块404，将所述预处理后的食品安全事件输入所述分类模型，输出所述食品安全事件的类别；其中，所述深度学习的神经网络模型是经过多次训练、调参、取优后得到的。

本发明提供的基于神经网络模型的食品安全事件分类装置，首先从各省市食品安全信息发布的网站获取食品安全事件的相关数据。然后根据食品安全事件的相关数据构建食品安全领域专用词典，情感分析词典和地理位置信息词典。再根据词典对食品安全事件的相关数据进行正文提取、分词、去停用词和词性标注等预处理。最后将预处理后的文本作为文本分类模型的输入，模型中的词嵌入层用于对文本的分布式表示，将文本表示成词向量；模型中的双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系；模型中的注意力机制层根据特征对文本分类的重要性为其分配不同的权重，模型中的分类层实现最终的食品安全事件分类。本发明采用基于神经网络的文本分类模型对各省市食品安全信息网站发布的食品安全事件分类，根据食品安全事件分级标准得到其所属的类别，能够获取更多有价值且更具有针对性的信息。

同时，利用基于神经网络模型的食品安全事件分类方法，将食品安全事件分为特别重大事件、重大事件、较大事件和一般事件，不需要繁琐的人工特征工程，大大减少了分类的时间复杂度，并获得更为准确的分类信息。将食品安全领域专用的词典加入分类模型中，提高食品安全事件的分类效果。在分类模型中使用双向的循环神经网络学习文本特征以缓解因信息不平衡对分类造成的影响，并使用双线性注意力函数，以较少的参数获得隐藏层状态间的交互，使所述的分类模型达到最好的分类性能。对食品安全事件进行准确的分类，对于食品安全信息的后续分析与研究具有重要意义，方便相关部门根据分析研究的结果，采取相应的监管和预防措施。

最后应说明的是：以上实施例仅用以说明根据本发明实施例提供的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员而言，可以理解在不脱离根据本发明实施例提供的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，凡在根据本发明实施例提供的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在根据本发明实施例提供的保护范围之内。

Claims

1.一种基于神经网络模型的食品安全事件分类方法，其特征在于，包括：

根据所述食品安全领域专用词典，所述情感分析词典和所述地理位置信息词典对所述食品安全事件的相关数据进行正文提取、分词、去停用词和词性标注预处理；

将文本分类模型用于提取预处理后文本的特征，所述模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层；所述词嵌入层用于对文本的分布式表示，word2vec网络中的skip-gram模型将文本表示成词向量，所述双向循环神经网络层用于捕获长文本的上下文信息和语义依赖关系且双向的网络结构可缓解信息不平衡的问题，所述注意力机制层根据文本特征对分类的重要性使用双线性注意力函数，以较少的参数获得隐藏层状态间的交互为这些特征分配不同的权重，所述分类层实现最终的食品安全事件的分类。

2.根据权利要求1所述的一种基于神经网络模型的食品安全事件分类方法，其特征在于，所述食品安全事件的获取来源于各地政府、企事业单位、科研机构等专门发布食品安全信息的网站。

3.根据权利要求1所述的一种基于神经网络模型的食品安全事件分类方法，其特征在于，所述食品安全领域专用词典包括食品添加剂、农药、兽药、天然毒素、化学污染物中的专有名词，所述情感分析词典包括大量的与食品安全事件描述相关的正面和负面的情感词汇，所述地理位置信息词典包含中国省份、城市、区县、乡镇和村庄的地理位置名词。

4.根据权利要求1所述的一种基于神经网络模型的食品安全事件分类方法，其特征在于，对所述食品安全事件的相关数据的预处理包括根据所述词典对食品安全事件进行分词，去除无效信息，对书写不规范的词规范化处理，还原缩略词，删除有歧义的网络用语和表情符号。

5.根据权利要求1所述的一种基于神经网络模型的食品安全事件分类方法，其特征在于，所述文本分类模型由四个网络层组成：词嵌入层，双向循环神经网络层，注意力机制层和分类层；

所述词嵌入层用于文本的分布式表示，使用word2vec网络中skip-gram模型训练词向量，将每个词训练后表示成为一个低维、连续的实值向量；

所述双向循环神经网络层中使用的是双向的长短期记忆网络(LSTM)，所述网络使用一种“门”的存储结构实现去除或者增加信息的功能，通过学习控制信息流，捕获句子中词之间的长期依赖性；所述网络的双向结构由两个相反方向的循环层组成，分别从正向和反向返回两个隐藏状态序列，连接成一个固定维数的向量，来减轻因文本过长而造成的信息量不平衡问题；

所述注意力机制层将所述双向循环神经网络层生成的文本表示作为判别基准，学习不同位置的状态权重，对文本分类更重要的特征被赋予更高的权重，使用向量的加权线性组合来获得最优的特征维数；所述注意力机制层使用的注意力得分函数是双线性注意力函数，可使用较少的参数获得所述隐藏层状态间的交互；

6.根据权利要求1所述的一种基于神经网络模型的食品安全事件分类方法，其特征在于，所述文本分类模型对食品安全事件分类的标准分为特别重大：食品安全事件影响范围涉及2个以上省份，出现30人以上死亡，造成特别严重的健康损害后果；重大:食品安全事件影响范围涉及2个以上社区市，造成健康损害人数在100人以上并出现死亡病例，或出现10人以上、30人以下死亡，发现在我国首次出现的新的污染物引起的食品安全事件，造成严重健康损害后果，并有扩散趋势；较大：食品安全事件影响范围涉及2个以上县(市、区)，造成健康损害人数在100人以上，或出现10人以下死亡病例，造成较为严重的健康损害后果；一般：存在健康损害的污染食品，在1个县(市、区)行政区内造成严重健康损害后果，食品安全事件造成健康损害人数在30人以上、100人以下，且未出现死亡病例。

7.一种基于神经网络模型的食品安全事件分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的食品安全事件；

处理模块，将所述的食品安全事件进行预处理，包括去重、删除无效信息、分词、去停用词和词性标注；

分类模块，将预处理后的食品安全事件输入所述分类模型，输出所述食品安全事件的类别；其中，所述神经网络模型是经过多次训练、调参、取优后得到的。