CN113378576A

CN113378576A - 食品安全数据挖掘方法

Info

Publication number: CN113378576A
Application number: CN202110498434.9A
Authority: CN
Inventors: 陈�胜; 张华东; 李北川; 罗书全; 杨斌; 邓迅; 詹洪胜; 霍娇; 莫军; 高中华; 谭敏
Original assignee: CHONGQING MUNICIPAL CENTER FOR DISEASE CONTROL AND PREVENTION; Chongqing Aerospace Information Co ltd
Current assignee: CHONGQING MUNICIPAL CENTER FOR DISEASE CONTROL AND PREVENTION; Chongqing Aerospace Information Co ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-09-10
Anticipated expiration: 2041-05-08
Also published as: CN113378576B

Abstract

本发明提供的一种食品安全数据挖掘方法，包括以下步骤：S1.采集网络文本，并对网络文本进行预处理；S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词；S3.确定情感词的情感值，并形成情感值对照表；构建程度词权重表和否定词权重表；S4.判断预处理后的网络文本中的评论句句型，包括转折句、递进句和条件句，并根据评论句之间的关系确定出权重调节系数；S5.基于步骤S3步骤S4中的参数，计算预处理后的网络文本的情感倾向值，将情感倾向值大于设定阈值的评论句记录到正向评价集合中，将情感倾向值小于设定阈值的评论句记录到负向评价集合中，通过上述方法，能够从网络文本中挖掘出准确的具有倾向性的评语数据，从而能够准确把握食品安全的舆情信息，从而能够为食品监督、监管提供准确的数据支持。

Description

食品安全数据挖掘方法

技术领域

本发明涉及一种数据挖掘方法，尤其涉及一种食品安全数据挖掘方法。

背景技术

食品安全是现代社会中极为重要的话题，而且，由于网络技术的发展，人们在日常生活中对食品安全在网络上进行相应的意见评述，这些评述中往往具有正面的，负面的亦或是中性的评述，现有技术中，关于食品的网络评述文本中的有效数据进行准确挖掘是一个系带解决的技术难题。

发明内容

有鉴于此，本发明的目的是提供一种食品安全数据挖掘方法，能够从网络文本中挖掘出准确的具有倾向性的评语数据，从而能够为食品监督、监管提供准确的数据支持。

本发明提供的一种食品安全数据挖掘方法，包括以下步骤：

S1.采集网络文本，并对网络文本进行预处理；

S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词；

S3.确定情感词的情感值，并形成情感值对照表；构建程度词权重表和否定词权重表；

S4.判断预处理后的网络文本中的评论句句型，包括转折句、递进句和条件句，并根据评论句之间的关系确定出权重调节系数；

S5.基于步骤S3步骤S4中的参数，计算预处理后的网络文本的情感倾向值，将情感倾向值大于设定阈值的评论句记录到正向评价集合中，将情感倾向值小于设定阈值的评论句记录到负向评价集合中。

进一步，步骤S1中，对于网络文本的预处理包括：

S11.对网络文本进行有序化处理，并剔除网络文本中的停用词、无关词；

S12.对步骤S1中处理后的网络文本进行指代消解：

S121.基于fasttext分类模型对网络文本进行指代词检测；

S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取；

S123.将网络文本的指代词替换成相对应的实体词。

进一步，步骤S5中，根据如下模型计算网络文本的情感倾向值S：

S＝S1+S2+S3，其中，S1为网络文本中一般陈述句的情感倾向值，S2为网络文本中转折句的情感倾向值，S3为条件句的情感倾向值。

进一步，一般陈述句的情感倾向值通过如下方法计算：

其中，w_deg为第i个陈述句中的程度词的权重，Se为第i个陈述句中的情感特征词的情感值，w_neg为第i个陈述句中的否定词的平均权重，Q为网络文本中一般陈述句的个数，m为陈述句中否定词的个数。

进一步，转折句的情感倾向值通过如下方法计算：

其中，w_neg1为转折句中正向情感特征词的否定词的平均权重，w_neg2为转折句中负向情感特征词的否定词的平均权重，w_deg1为转折句中正向情感特征词的程度词的权重，w_deg2为转折句中负向情感特征词的程度词的权重，r₁为转折句中程度词的权重调节系数，t₁为转折句中否定词的权重调节系数；Se₁为转折句中正向情感特征词的情感值，Se₂为转折句中负向情感特征词的权重，q为转折句的个数。

进一步，递进句的情感倾向值通过如下方法计算：

其中，Se为递进句的情感特征词的情感值，w_deg为递进句的程度词的权重，w_neg为递进句中的否定词的平均权重，m为否定词的个数，r₂为递进句中程度词的权重调节系数，t₂为递进句中否定词的权重调节系数。

本发明的有益效果：通过本发明，能够从网络文本中挖掘出准确的具有倾向性的评语数据，从而能够为食品监督、监管提供准确的数据支持。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的流程图。

具体实施方式

以下结合说明书附图对本发明做出进一步详细说明：

本发明提供的一种食品安全数据挖掘方法，包括以下步骤：

S1.采集网络文本，并对网络文本进行预处理；

S2.从预处理后的网络文本中提取出食品特征词、情感词、程度词和否定词；对于食品特征词即是关于食品的相关特征的描述，比如包装、安全、添加剂含量等等，情感词比如好、差、不错等，程度词包括最、非常、尤其等，否定包括不、恶劣等等，这些都是可以通过现有的方法建立相应的词典实现，在此不加以赘述；

S3.确定情感词的情感值，并形成情感值对照表；构建程度词权重表和否定词权重表；情感词的基础情感值的计算通过现有算法实现，比如TF-IDF算法；

S4.判断预处理后的网络文本中的评论句句型，包括转折句、递进句和条件句，并根据评论句之间的关系确定出权重调节系数；其中，相关的权重调节系数根据实际的食品领域、经验等进行确定；

S5.基于步骤S3步骤S4中的参数，计算预处理后的网络文本的情感倾向值，将情感倾向值大于设定阈值的评论句记录到正向评价集合中，将情感倾向值小于设定阈值的评论句记录到负向评价集合中，通过上述方法，能够从网络文本中挖掘出准确的具有倾向性的评语数据，从而能够准确把握食品安全的舆情信息，从而能够为食品监督、监管提供准确的数据支持。

本实施例中，步骤S1中，对于网络文本的预处理包括：

S11.对网络文本进行有序化处理，并剔除网络文本中的停用词、无关词；在网络评语中，用户的语言组织往往不是有序的，而是杂乱的，因此，需要对文本进行有序化处理，通过调整词语的顺序将语言表达合理化，准确化，而且，在文本中一些停用词，无关词(比如评价某一个食品安全性，而出现“我买了很多”这类，这就是无关的)；

S12.对步骤S1中处理后的网络文本进行指代消解：

S121.基于fasttext分类模型对网络文本进行指代词检测；

S123.将网络文本的指代词替换成相对应的实体词。通过上述方法，能够准确的确定出情感特征词、与情感特征词有关的程度词、否定词等，从而确保后续处理的准确性。

本实施例中，步骤S5中，根据如下模型计算网络文本的情感倾向值S：

一般陈述句的情感倾向值通过如下方法计算：

转折句的情感倾向值通过如下方法计算：

递进句的情感倾向值通过如下方法计算：

其中，Se为递进句的情感特征词的情感值，w_deg为递进句的程度词的权重，w_neg为递进句中的否定词的平均权重，m为否定词的个数，r₂为递进句中程度词的权重调节系数，t₂为递进句中否定词的权重调节系数；其中，关于句型，还有疑问句、反问句这类，事实上这类可以转化为一般陈述句，因此，只需要通过形式转化即可，而递进句，转折句，这两类句型会影响到用户的情感倾向，因此，通过上述方法，能够准确地评价用户的情感倾向，确保挖局出的数据的准确性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种食品安全数据挖掘方法，其特征在于：包括以下步骤：

S1.采集网络文本，并对网络文本进行预处理；

2.根据权利要求1所述食品安全数据挖掘方法，其特征在于：步骤S1中，对于网络文本的预处理包括：

S12.对步骤S1中处理后的网络文本进行指代消解：

S121.基于fasttext分类模型对网络文本进行指代词检测；

S123.将网络文本的指代词替换成相对应的实体词。

3.根据权利要求1所述食品安全数据挖掘方法，其特征在于：步骤S5中，根据如下模型计算网络文本的情感倾向值S：

4.根据权利要求3所述食品安全数据挖掘方法，其特征在于：一般陈述句的情感倾向值通过如下方法计算：

5.根据权利要求3所述食品安全数据挖掘方法，其特征在于：转折句的情感倾向值通过如下方法计算：

6.根据权利要求3所述食品安全数据挖掘方法，其特征在于：递进句的情感倾向值通过如下方法计算：