CN104572977A

CN104572977A - 一种农产品质量安全事件在线检测方法

Info

Publication number: CN104572977A
Application number: CN201410855584.0A
Authority: CN
Inventors: 潘守慧; 王开义; 王志彬; 刘忠强; 杨锋; 王书锋
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-04-29
Anticipated expiration: 2034-12-31
Also published as: CN104572977B

Abstract

本发明公开了一种农产品质量安全事件在线检测方法，所述方法包括：从系统指定网站上爬取农产品质量安全领域相关的Web页面，并进行预处理，得到初始文档集合；对初始文档集合进行特征抽取，利用改进的增量TF-IDF模型进行文本特征表示；对初始文档集合进行聚类，将聚类得到的若干个主题事件作为系统的已知事件；对新增网页集合进行Single-Pass增量聚类，得到若干个候选事件，计算候选事件与已知事件的相似度，将相似度大于阈值的候选事件标记为新事件。本发明通过对Web信息进行挖掘分析，实现了农产品质量安全事件的自动识别，进而实现农产品质量安全事件的在线检测，可用于农产品质量安全风险信息的动态监测。

Description

一种农产品质量安全事件在线检测方法

技术领域

本发明属于突发事件智能信息处理领域，特别涉及一种利用Web挖掘、话题检测与跟踪等技术实现的农产品质量安全事件在线检测方法。

背景技术

近年来，农产品质量安全事件不断发生，形式严峻。农产品质量安全等涉农突发事件，社会影响大、受关注度高、敏感程度高，该类事件若不能及时发现和处置，极易引起社会恐慌，进而引发系统性社会风险。随着互联网的快速发展，互联网已成为人们获取、发布和传播信息的重要平台之一。例如：“瘦肉精”、“毒豇豆”、“青岛毒韭菜”等农产品质量安全事件都是在互联网上率先披露。同时，网络也时常出现一些不科学、伪科学、断章取义、甚至恶意诽谤的农产品安全信息。例如：“西瓜注射红色素”、“奶牛注射激素催奶”等所谓农产品安全事故，损害了农业企业信誉，误导了消费者购买，甚至引起了一定程度的社会恐慌。对新闻事件的识别、收集和整理的传统方法完全依赖人工处理，不仅耗时耗力，而且往往缺乏全局性的分析与校对，忽略新闻事件之间的关联性，从而无法精确区分新事件和组织其衍生事件。此外，由于农产品质量安全事件具有突发性、不确定性和社会敏感性等特点，农产品质量安全事件发生后，相关部门需要及时掌握事件的舆情状况和发展态势，传统的信息识别、获取和分析处理方法越来越不能满足农产品质量安全事件应急管理实践的需要，迫切需要一种面向网络大数据进行农产品质量安全事件自动识别与组织的应用技术，准确、及时地检测出最新的农产品质量安全事件，收集关于同一事件的后续报道并合理组织为有机整体。

发明内容

针对现有技术存在的上述问题，本发明提供一种农产品质量安全事件在线检测方法，该方法通过对Web数据流进行挖掘分析，及时识别出农产品质量安全最新事件，并将已知事件的Web文档组织成一个有机整体，进而实现对农产品质量安全事件的在线检测。

为解决达到上述目的，本发明采用以下技术方案：

一种农产品质量安全事件在线检测方法，具体包括以下步骤：

S1：利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面，将其下载到本地计算机上，对其进行预处理后存储到本地数据库中，预处理的Web页面构成初始文档集合D₀，为D₀中的文档建立倒排索引。

S2：对初始文档集合D₀进行主题特征抽取，经过特征空间降维后形成特征词集合V＝{v₁,v₂,...,v_|V|}，|V|为特征词的个数，利用改进后的增量TF-IDF模型进行文本特征表示，将初始文档集合D₀转化为一组特征向量，基于改进的特征词权重计算方法计算每一特征词的权重。

S3：利用层次聚类法对文档集合D₀进行聚类训练，训练出类间相似度距离的阈值，进而将文档集合D₀划分为多个类簇，每个类簇代表一个主题事件，从每个主题事件的文档中选择若干个权重较高的特征词描述该事件，将上述聚类出的事件作为初始已知事件。

S4：通过引入时间因素，构建一种基于时间窗口的Single-Pass增量聚类算法，对当前新增网页集合D_t进行增量聚类，从当前系统新增文档中聚类出候选事件，计算候选事件与已知事件的距离，根据步骤S3中训练出的阈值，把候选事件判定为新事件或已知事件。

进一步地，所述步骤S1还包括以下步骤：

S11：设定初始种子URL列表(即种子网页)，主题爬虫程序首先从种子网页开始，利用网页间的超链接关系和超链接文本内容，分别加以链接拓扑分析和词法分析，进行领域主题相关的网页推测和选择，具体如下：

从一源网页出发，随着链接距离增加，训练出网页之间内容相似度的变化函数，使用网页p₁和p₂之间夹角的余弦σ(p₁,p₂)作为相似度衡量指标，从而测得两者之间的链接距离δ₁(p₁,p₂)；对每个主题q，在每个爬取深度为h的爬取集合中，所测得的距离δ₁(p₁,p₂)和相似度σ(p₁,p₂)对所有网页p求平均值：

δ (q, h) = \frac{1}{N_{h}^{q}} Σ_{i = 1}^{h} i (N_{i}^{q} - N_{i - 1}^{q})

σ (q, h) = \frac{1}{N_{h}^{q}} \underset{p &Element; P_{h}^{q}}{Σ} σ (q, p)

其中，δ(q,h)为网页集合的平均链接距离，σ(q,h)为网页集合的平均相似度，是网页集合的大小。

S12：对爬取到的网页进行预处理，主要包括：HTML域块识别、页面内容抽取、HTML标签移除、中文分词、停用词移除等。

S13：将预处理后的Web页面以及原始网页分别保存到本地数据库中，基于特征词集合V＝{v₁,v₂,...,v_|V|}为Web页面建立倒排索引，用于后续处理中的快速文档检索。

更进一步地，步骤S12所述HTML域块识别是指利用正则表达式辨别出Web页面中的HTML域；所述页面内容提取是指基于DOM树匹配或基于位置和外观的特性建立机器学习模型，提取出Web页面中的主要内容块；所述中文分词是指利用分词软件对抽取出的中文文本进行分词处理；所述停用词移除是指基于停用词列表剔除文本中的冠词、介词、连词以及一些代词。

进一步地，所述步骤S2还包括以下步骤：

S21：根据Web文档中HTML标签类型(如<title>、<meta>等)及其所在位置的重要程度，将每个文档在逻辑上分为若干种不同类型的文本块，记为{s₁,s₂,…,s_|s|}。每个文本块s_i的对应的文本长度(即所包含的特征词个数)为L_i，分别记为{L₁,L₂,…,L_|s|}。其中|S|为文档的分块数。

S22：计算特征词v_k的加权频率：

tf (v_{k}, d_{i}) = Σ_{j = 1}^{| s |} \frac{{tf}_{ij}^{k}}{L_{ij}} \times {sw}_{ij}

其中，tf(v_k,d_i)表示特征词t_k在文档d_i中的加权频率，L_ij为文档d_i中第j个文本块s_j的文本长度，为特征词t_k在文档d_i中第j个文本块s_j中实际出现的频率，sw_ij为文档d_i的第j个文本块s_j的位置权重。

S23：计算特征词v_k的文档频率：

df_t+1(v_k)＝df_t(v_k)+df_Dt+1(v_k)

其中，df_t+1(v_k)为特征词v_k在t+1时刻的文档频率，df_t(v_k)为特征词v_k在t时刻的文档频率，D_t为时间段[t,t+1]内新增加的文档集合，df_Dt+1(v_k)为特征词v_k在文档集合D_t中的文档频率。

S24：计算特征词v_k的逆向文档频率idf_t(v_k)：

idf_t(v_k)＝log₂(N/df(v_k)+1)

其中，N为文档集合D中文档的数量，df(v_k)为特征词v_k的文档频率。

S25：计算t时刻特征词v_k在文档d_i中的权重weight_t(v_k,d_i)：

{weight}_{t} (v_{k}, d_{i}) = \frac{1}{z_{t} (d)} tf (v_{k}, d_{i}) * {idf}_{t} (v_{k})

其中，Z_t(d)为归一化常量。

S26：计算t时刻文档d_i和文档d_j之间的内容相似度sim_t(d_i,d_j)：

{sim}_{t} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{| V |} {weight}_{t} (v_{k}, d_{i}) \times {weight}_{t} (v_{k}, d_{j})}{\sqrt{Σ_{k = 1}^{| V |} {weight}_{t} {(v_{k}, d_{i})}^{2}} \times \sqrt{Σ_{k = 1}^{| V |} {weight}_{t} {(v_{k}, d_{j})}^{2}}}

其中，weight_t(v_k,d_i)表示t时刻特征词v_k在文档d_i中的权重，weight_t(v_k,d_j)表示t时刻特征词v_k在文档d_j中的权重，|V|为特征词集合V中的元素个数。

进一步地，所述步骤S4具体过程如下：

S41：设定最大等待时间为△T_max，最大新增网页数为△D_max，设当前已等待时间为△t，若△t≥△T_max，且|D_t|<△D_max，或|△t<△T_max，且D_t|≥△D_max，则对新增网页集合D_t进行Single-Pass增量聚类，得到候选事件集合CandE＝{ce₁,ce₂,...,ce_|CandE|}，|CandE|为集合CandE的元素个数。

S42：计算集合CandE中每个候选事件ce与已知事件NE的相似度，通过引入时间距离因素，提高效率和运算速度，候选事件的文档d与已知事件NE之间的时间距离为：

dis_time(d,NE)＝min{|time_d-time_NEs|,|time_d-time_NEl|}

其中，是已知事件NE的开始发生时间，是已知事件NE的最近报道时间，time_d是文档d的产生时间(即发布时间)，文档d与已知事件NE之间的相似度为：

Score(d,NE)＝α×sim_t(d,NE)-β×dis_t(d,NE)

其中，sim_t(d,NE)为文档d与已知事件NE之间内容相似度，dis_t(d,NE)为文档d与已知事件NE之间的时间距离，α为内容相似度权重，β为时间距离的权重，从而可得候选事件ce与已知事件NE的相似度：

SIM (ce, NE) = \frac{1}{N} Σ_{i = 1}^{N} Score (d_{i}, NE)

其中，SIM(ce,NE)为候选事件ce与已知事件NE的相似度，N为候选事件ce中的文档数量，Score(d_i,NE)为候选事件ce中第i个文档d_i与已知事件NE之间的相似度。

若SIM(ce,NE)大于阈值θ时，则将候选事件ce标记为已知事件，并将候选事件ce下的文档合并到已知事件NE中；否则，将其标记为一个新事件；其中，阈值θ是通过机器学习方法多次训练后确定。

S43：将新事件合并到已知事件列表中，并重新设置阈值θ，重复步骤S42，直到所有的候选事件都分类完毕；然后，重新针对更新后的文档集合D₀进行特征提取和特征选择，等待处理下一批新爬取的Web页面。

与现有技术相比，本发明具有以下优点：

本发明通过对网页进行链接拓扑分析和内容分析，通过网页爬取算法对未爬取的网页进行主题相关度估计，避免了网络爬虫对Web图的完全遍历，提高了系统的爬取效率。实验表明，采用传统的宽度优先策略进行网页抓取，抓取到的网页的主题相关度不到10％，而采用本发明提出的网页爬取策略，抓取网页的主题相关度平均在80％以上。

通过改进特征词权重计算方法以及在增量聚类算法中引入时间距离因素，提高了运算效率和主题事件识别的准确率。实验表明，考虑时间距离后，系统的漏报率和误报率都有明显降低。

附图说明

图1是本发明所述农产品质量安全事件在线检测方法的流程图；

图2是本发明实施例引入时间距离因素对系统检测性能的影响。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，网络爬虫从指定网站上爬取农产品质量安全领域的网页，指定网站通常包括：新闻门户、政府类网站、三农资讯网站、网络论坛、搜索引擎等类型的Web站点。新闻门户主要包括：新华网、腾讯网、新浪网、搜狐网、网易、人民网、凤凰网等大型新闻门户；政府类网站主要包括：农业部、国家质检总局、国家食药监局、消协及各地农委或农业局、工商局网站等政府类网站，三农资讯网站主要包括：中国农产品质量安全网、中国现代农业网等，网络论坛主要包括：天涯论坛、百度贴吧、新浪微博等，搜索引擎主要指：百度新闻版块、谷歌新闻版块等。将指定网站的主页作为种子页面，把种子页面的URL加入到初始URL列表中，利用宽度优先策略进行网页抓取，通过对网页进行链接拓扑分析和词法分析，实现网络爬虫的主题爬行。

实施例所述农产品质量安全事件在线检测方法的流程图如图1所示，具体包括以下步骤：

S1：利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面，将其下载到本地计算机上，对其进行预处理后存储到本地数据库中，预处理的Web页面构成初始文档集合D₀，为D₀中的文档建立倒排索引。具体包括以下步骤：

S11：设定初始种子URL列表(即种子网页)，主题爬虫程序首先从种子网页开始，利用网页间的超链接关系和超链接文本内容，分别加以链接拓扑分析和词法分析，进行领域主题相关的网页推测和选择。

S13：将预处理后的Web页面以及原始网页分别保存到本地数据库中，基于特征词集合为Web页面建立倒排索引，用于后续处理中的快速文档检索。

实际应用中，通过构建农产品质量安全领域本体，借助领域本体的语义功能实现特征词之间的语义转换与合并。例如：对于特征词“番茄”和“西红柿”，则认为是同一特征词。

S2：对初始文档集合D₀进行主题特征抽取，经过特征空间降维后形成特征词集合，利用改进后的增量TF-IDF模型进行文本特征表示，将初始文档集合D₀转化为一组特征向量，基于改进的特征词权重计算方法计算每一特征词的权重。具体包括以下步骤：

S21：根据Web文档中HTML标签类型(如<title>、<meta>等)及其所在位置的重要程度，将每个文档在逻辑上分为若干种不同类型的文本块。

S22：计算特征词的加权频率。

S23：计算特征词的文档频率。

S24：计算特征词的逆向文档频率。

S25：计算t时刻特征词在文档中的权重。

S26：计算t时刻文档d_i和文档d_j之间的内容相似度。

S4：通过引入时间因素，构建一种基于时间窗口的Single-Pass增量聚类算法，对当前新增网页集合D_t进行增量聚类，从当前新增文档中聚类出候选事件，计算候选事件与已知事件的距离，根据步骤S3中训练出的阈值，把候选事件判定为新事件或已知事件。具体包括以下步骤：

S41：设最大等待时间为△T_max，最大新增网页数为△D_max，设当前已等待时间为△t，若△t≥△T_max且|D_t|<△D_max，或|△t<△T_max且D_t|≥△D_max，则对新增网页集合D_t进行Single-Pass增量聚类，得到候选事件集合CandE＝{ce₁,ce₂,...,ce_|CandE|}，|CandE|为集合CandE的元素个数。

S42：计算集合CandE中每个候选事件ce与已知事件NE的相似度，通过引入时间距离因素，提高效率和运算速度。

为了验证本发明所述方法的有效性，以“苏丹红”、“毒豇豆”、“三聚氰胺”、“瘦肉精”、湖南“镉大米”、“福喜过期肉”等几个典型农产品质量安全事件的Web文档为语料库，分别采用传统的宽度优先策略和本发明提出的网页爬取策略，进行农产品质量安全领域主题网页爬取。实验表明，采用传统的宽度优先策略进行网页抓取，抓取到的网页的主题相关度不到10％，而采用本发明提出的网页爬取策略，抓取网页的主题相关度平均在80％以上。

进一步地，为了验证时间距离对系统检测效果的影响，测出了考虑时间距离与未考虑时间距离两种情况下系统的漏报率和误报率，实验结果如图2所示。从图2可以看出，考虑时间距离后，系统的漏报率和误报率都有明显降低。例如，误报率为5％时，未考虑时间距离时跟踪系统的漏报率为55％，考虑时间距离后的漏报率为36％。

Claims

1.一种农产品质量安全事件在线检测方法，其特征在于，所述方法包括：

S1：利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面，将其下载到本地计算机上，对其进行预处理后存储到本地数据库中，预处理的Web页面构成初始文档集合D₀，并为D₀中的文档建立倒排索引；

S2：对初始文档集合D₀进行主题特征抽取，经过特征空间降维后形成特征词集合V＝{v₁,v₂,…,v_|V|}，|V|为特征词的个数，利用改进的增量TF-IDF模型进行文本特征表示，将初始文档集合D₀转化为一组特征向量，基于改进的特征词权重计算方法计算每一特征词的权重；

S3：利用层次聚类法对文档集合D₀进行聚类训练，训练出类间相似度距离的阈值，进而将文档集合D₀划分为多个类簇，每个类簇代表一个主题事件，从每个主题事件的文档中选择若干个权重较高的特征词描述该事件，将上述聚类出的事件作为初始已知事件；

S4：引入时间因素，构建一种基于时间窗口的Single-Pass增量聚类算法，对当前新增网页集合D_t进行增量聚类，从当前新增文档中聚类出候选事件，计算候选事件与已知事件的距离，根据步骤S3中训练出的阈值，把候选事件判定为新事件或已知事件。

2.根据权利要求1所述的农产品质量安全事件在线检测方法，其特征在于，所述步骤S1还包括以下步骤：

S11：设定初始种子URL列表，主题爬虫程序首先从种子网页开始，利用网页间的超链接关系和超链接文本内容，分别加以链接拓扑分析和词法分析，进行领域主题相关的网页推测和选择，具体如下：

δ (q, h) = \frac{1}{N_{h}^{q}} Σ_{i = 1}^{h} i (N_{i}^{q} - N_{i - 1}^{q})

σ (q, h) = \frac{1}{N_{h}^{q}} \underset{p &Element; P_{h}^{q}}{Σ} σ (q, p)

其中，δ(q,h)为网页集合的平均链接距离，σ(q,h)为网页集合的平均相似度，是网页集合的大小；

S12：对爬取到的网页进行预处理，包括：HTML域块识别、页面内容抽取、HTML标签移除、中文分词、停用词移除；

S13：将预处理后的Web页面以及原始网页分别保存到本地数据库中，基于特征词集合V＝{v₁,v₂,…,v_|V|}为Web页面建立倒排索引。

3.根据权利要求2所述的农产品质量安全事件在线检测方法，其特征在于，步骤S12所述HTML域块识别是指利用正则表达式辨别出Web页面中的HTML域；所述页面内容提取是指基于DOM树匹配或基于位置和外观的特性建立机器学习模型，提取Web页面中的主要内容块；所述中文分词是指利用分词软件对抽取出的中文文本进行分词处理；所述停用词移除是指基于停用词列表剔除文本中的冠词、介词、连词以及一些代词。

4.根据权利要求1所述的农产品质量安全事件在线检测方法，其特征在于，所述步骤S2还包括以下步骤：

S21：根据Web文档中HTML标签类型及其所在位置的重要程度，将每个文档在逻辑上分为若干种不同类型的文本块，记为{s₁,s₂,…,s_|s|}；每个文本块s_i对应的文本长度为L_i，分别记为{L₁,L₂,…,L_|s|}，其中|S|为文档的分块数；

S22：计算特征词v_k的加权频率：

tf (v_{k}, d_{i}) = Σ_{j = 1}^{| s |} \frac{{tf}_{ij}^{k}}{L_{ij}} \times {sw}_{ij}

其中，tf(v_k,d_i)表示特征词t_k在文档d_i中的加权频率，L_ij为文档d_i中第j个文本块s_j的文本长度，为特征词t_k在文档d_i中第j个文本块s_j中实际出现的频率，sw_ij为文档d_i的第j个文本块s_j的位置权重；

S23：计算特征词v_k的文档频率：

{df}_{t + 1} (v_{k}) = {df}_{t} (v_{k}) + {df}_{D_{t + 1}} (v_{k})

其中，df_t+1(v_k)为特征词v_k在t+1时刻的文档频率，df_t(v_k)为特征词v_k在t时刻的文档频率，D_t为时间段[t,t+1]内新增加的文档集合，为特征词v_k在文档集合D_t中的文档频率；

S24：计算特征词v_k的逆向文档频率idf_t(v_k)：

idf_t(v_k)＝log₂(N/df(v_k)+1)

其中，N为文档集合D中文档的数量，df(v_k)为特征词v_k的文档频率；

S25：计算t时刻特征词v_k在文档d_i中的权重weight_t(v_k,d_i)：

wei {ght}_{t} (v_{k}, d_{i}) = \frac{1}{Z_{t} (d)} tf (v_{k}, d_{i}) * {idf}_{t} (v_{k})

其中，Z_t(d)为归一化常量；

{sim}_{t} (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{| V |} {weight}_{t} (v_{k}, d_{i}) \times {weight}_{t} (v_{k}, d_{j})}{\sqrt{Σ_{k = 1}^{| V |} {weight}_{t} {(v_{k}, d_{i})}^{2}} \times \sqrt{Σ_{k = 1}^{| V |} {weight}_{t} {(v_{k}, d_{j})}^{2}}}

5.根据权利要求1所述的农产品质量安全事件在线检测方法，其特征在于，所述步骤S4还包括以下步骤：

S41：设定最大等待时间为ΔT_max，最大新增网页数为ΔD_max，设当前已等待时间为Δt，若Δt≥ΔT_max且|D_t|<ΔD_max，或|Δt<ΔT_max且D_t|≥ΔD_max，则对新增网页集合D_t进行Single-Pass增量聚类，得到候选事件集合CandE＝{ce₁,ce₂,…,ce_|CandE|}，|CandE|为集合CandE的元素个数；

{dis}_{time} (d, NE) = \min {| {time}_{d} - {time}_{{NE}_{s}} |, | {time}_{d} - {time}_{{NE}_{l}} |}

其中，是已知事件NE的开始发生时间，是已知事件NE的最近报道时间，time_d是文档d的产生时间，文档d与已知事件NE之间的相似度为：

Score(d,NE)＝α×sim_t(d,NE)-β×dis_t(d,NE)

其中，sim_t(d,NE)为文档d与已知事件NE之间内容相似度，dis_t(d,NE)为文档d与已知事件NE之间的时间距离，α为内容相似度权重，β为时间距离的权重；

候选事件ce与已知事件NE的相似度为：

SIM (ce, NE) = \frac{1}{N} Σ_{i = 1}^{N} Score (d_{i}, NE)

其中，SIM(ce,NE)为候选事件ce与已知事件NE的相似度，N为候选事件ce中的文档数量，Score(d_i,NE)为候选事件ce中第i个文档d_i与已知事件NE之间的相似度；

若SIM(ce,NE)大于阈值θ，则将候选事件ce标记为已知事件，并将候选事件ce下的文档合并到已知事件NE中；否则，将其标记为一个新事件；其中，阈值θ通过机器学习方法多次训练后确定；