CN104572977A - 一种农产品质量安全事件在线检测方法 - Google Patents

一种农产品质量安全事件在线检测方法 Download PDF

Info

Publication number
CN104572977A
CN104572977A CN201410855584.0A CN201410855584A CN104572977A CN 104572977 A CN104572977 A CN 104572977A CN 201410855584 A CN201410855584 A CN 201410855584A CN 104572977 A CN104572977 A CN 104572977A
Authority
CN
China
Prior art keywords
document
events
event
similarity
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410855584.0A
Other languages
English (en)
Other versions
CN104572977B (zh
Inventor
潘守慧
王开义
王志彬
刘忠强
杨锋
王书锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Research Center for Information Technology in Agriculture
Original Assignee
Beijing Research Center for Information Technology in Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Research Center for Information Technology in Agriculture filed Critical Beijing Research Center for Information Technology in Agriculture
Priority to CN201410855584.0A priority Critical patent/CN104572977B/zh
Publication of CN104572977A publication Critical patent/CN104572977A/zh
Application granted granted Critical
Publication of CN104572977B publication Critical patent/CN104572977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种农产品质量安全事件在线检测方法,所述方法包括:从系统指定网站上爬取农产品质量安全领域相关的Web页面,并进行预处理,得到初始文档集合;对初始文档集合进行特征抽取,利用改进的增量TF-IDF模型进行文本特征表示;对初始文档集合进行聚类,将聚类得到的若干个主题事件作为系统的已知事件;对新增网页集合进行Single-Pass增量聚类,得到若干个候选事件,计算候选事件与已知事件的相似度,将相似度大于阈值的候选事件标记为新事件。本发明通过对Web信息进行挖掘分析,实现了农产品质量安全事件的自动识别,进而实现农产品质量安全事件的在线检测,可用于农产品质量安全风险信息的动态监测。

Description

一种农产品质量安全事件在线检测方法
技术领域
本发明属于突发事件智能信息处理领域,特别涉及一种利用Web挖掘、话题检测与跟踪等技术实现的农产品质量安全事件在线检测方法。
背景技术
近年来,农产品质量安全事件不断发生,形式严峻。农产品质量安全等涉农突发事件,社会影响大、受关注度高、敏感程度高,该类事件若不能及时发现和处置,极易引起社会恐慌,进而引发系统性社会风险。随着互联网的快速发展,互联网已成为人们获取、发布和传播信息的重要平台之一。例如:“瘦肉精”、“毒豇豆”、“青岛毒韭菜”等农产品质量安全事件都是在互联网上率先披露。同时,网络也时常出现一些不科学、伪科学、断章取义、甚至恶意诽谤的农产品安全信息。例如:“西瓜注射红色素”、“奶牛注射激素催奶”等所谓农产品安全事故,损害了农业企业信誉,误导了消费者购买,甚至引起了一定程度的社会恐慌。对新闻事件的识别、收集和整理的传统方法完全依赖人工处理,不仅耗时耗力,而且往往缺乏全局性的分析与校对,忽略新闻事件之间的关联性,从而无法精确区分新事件和组织其衍生事件。此外,由于农产品质量安全事件具有突发性、不确定性和社会敏感性等特点,农产品质量安全事件发生后,相关部门需要及时掌握事件的舆情状况和发展态势,传统的信息识别、获取和分析处理方法越来越不能满足农产品质量安全事件应急管理实践的需要,迫切需要一种面向网络大数据进行农产品质量安全事件自动识别与组织的应用技术,准确、及时地检测出最新的农产品质量安全事件,收集关于同一事件的后续报道并合理组织为有机整体。
发明内容
针对现有技术存在的上述问题,本发明提供一种农产品质量安全事件在线检测方法,该方法通过对Web数据流进行挖掘分析,及时识别出农产品质量安全最新事件,并将已知事件的Web文档组织成一个有机整体,进而实现对农产品质量安全事件的在线检测。
为解决达到上述目的,本发明采用以下技术方案:
一种农产品质量安全事件在线检测方法,具体包括以下步骤:
S1:利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面,将其下载到本地计算机上,对其进行预处理后存储到本地数据库中,预处理的Web页面构成初始文档集合D0,为D0中的文档建立倒排索引。
S2:对初始文档集合D0进行主题特征抽取,经过特征空间降维后形成特征词集合V={v1,v2,...,v|V|},|V|为特征词的个数,利用改进后的增量TF-IDF模型进行文本特征表示,将初始文档集合D0转化为一组特征向量,基于改进的特征词权重计算方法计算每一特征词的权重。
S3:利用层次聚类法对文档集合D0进行聚类训练,训练出类间相似度距离的阈值,进而将文档集合D0划分为多个类簇,每个类簇代表一个主题事件,从每个主题事件的文档中选择若干个权重较高的特征词描述该事件,将上述聚类出的事件作为初始已知事件。
S4:通过引入时间因素,构建一种基于时间窗口的Single-Pass增量聚类算法,对当前新增网页集合Dt进行增量聚类,从当前系统新增文档中聚类出候选事件,计算候选事件与已知事件的距离,根据步骤S3中训练出的阈值,把候选事件判定为新事件或已知事件。
进一步地,所述步骤S1还包括以下步骤:
S11:设定初始种子URL列表(即种子网页),主题爬虫程序首先从种子网页开始,利用网页间的超链接关系和超链接文本内容,分别加以链接拓扑分析和词法分析,进行领域主题相关的网页推测和选择,具体如下:
从一源网页出发,随着链接距离增加,训练出网页之间内容相似度的变化函数,使用网页p1和p2之间夹角的余弦σ(p1,p2)作为相似度衡量指标,从而测得两者之间的链接距离δ1(p1,p2);对每个主题q,在每个爬取深度为h的爬取集合中,所测得的距离δ1(p1,p2)和相似度σ(p1,p2)对所有网页p求平均值:
δ ( q , h ) = 1 N h q Σ i = 1 h i ( N i q - N i - 1 q )
σ ( q , h ) = 1 N h q Σ p ∈ P h q σ ( q , p )
其中,δ(q,h)为网页集合的平均链接距离,σ(q,h)为网页集合的平均相似度,是网页集合的大小。
S12:对爬取到的网页进行预处理,主要包括:HTML域块识别、页面内容抽取、HTML标签移除、中文分词、停用词移除等。
S13:将预处理后的Web页面以及原始网页分别保存到本地数据库中,基于特征词集合V={v1,v2,...,v|V|}为Web页面建立倒排索引,用于后续处理中的快速文档检索。
更进一步地,步骤S12所述HTML域块识别是指利用正则表达式辨别出Web页面中的HTML域;所述页面内容提取是指基于DOM树匹配或基于位置和外观的特性建立机器学习模型,提取出Web页面中的主要内容块;所述中文分词是指利用分词软件对抽取出的中文文本进行分词处理;所述停用词移除是指基于停用词列表剔除文本中的冠词、介词、连词以及一些代词。
进一步地,所述步骤S2还包括以下步骤:
S21:根据Web文档中HTML标签类型(如<title>、<meta>等)及其所在位置的重要程度,将每个文档在逻辑上分为若干种不同类型的文本块,记为{s1,s2,…,s|s|}。每个文本块si的对应的文本长度(即所包含的特征词个数)为Li,分别记为{L1,L2,…,L|s|}。其中|S|为文档的分块数。
S22:计算特征词vk的加权频率:
tf ( v k , d i ) = &Sigma; j = 1 | s | tf ij k L ij &times; sw ij
其中,tf(vk,di)表示特征词tk在文档di中的加权频率,Lij为文档di中第j个文本块sj的文本长度,为特征词tk在文档di中第j个文本块sj中实际出现的频率,swij为文档di的第j个文本块sj的位置权重。
S23:计算特征词vk的文档频率:
dft+1(vk)=dft(vk)+dfDt+1(vk)
其中,dft+1(vk)为特征词vk在t+1时刻的文档频率,dft(vk)为特征词vk在t时刻的文档频率,Dt为时间段[t,t+1]内新增加的文档集合,dfDt+1(vk)为特征词vk在文档集合Dt中的文档频率。
S24:计算特征词vk的逆向文档频率idft(vk):
idft(vk)=log2(N/df(vk)+1)
其中,N为文档集合D中文档的数量,df(vk)为特征词vk的文档频率。
S25:计算t时刻特征词vk在文档di中的权重weightt(vk,di):
weight t ( v k , d i ) = 1 z t ( d ) tf ( v k , d i ) * idf t ( v k )
其中,Zt(d)为归一化常量。
S26:计算t时刻文档di和文档dj之间的内容相似度simt(di,dj):
sim t ( d i , d j ) = &Sigma; k = 1 | V | weight t ( v k , d i ) &times; weight t ( v k , d j ) &Sigma; k = 1 | V | weight t ( v k , d i ) 2 &times; &Sigma; k = 1 | V | weight t ( v k , d j ) 2
其中,weightt(vk,di)表示t时刻特征词vk在文档di中的权重,weightt(vk,dj)表示t时刻特征词vk在文档dj中的权重,|V|为特征词集合V中的元素个数。
进一步地,所述步骤S4具体过程如下:
S41:设定最大等待时间为△Tmax,最大新增网页数为△Dmax,设当前已等待时间为△t,若△t≥△Tmax,且|Dt|<△Dmax,或|△t<△Tmax,且Dt|≥△Dmax,则对新增网页集合Dt进行Single-Pass增量聚类,得到候选事件集合CandE={ce1,ce2,...,ce|CandE|},|CandE|为集合CandE的元素个数。
S42:计算集合CandE中每个候选事件ce与已知事件NE的相似度,通过引入时间距离因素,提高效率和运算速度,候选事件的文档d与已知事件NE之间的时间距离为:
distime(d,NE)=min{|timed-timeNEs|,|timed-timeNEl|}
其中,是已知事件NE的开始发生时间,是已知事件NE的最近报道时间,timed是文档d的产生时间(即发布时间),文档d与已知事件NE之间的相似度为:
Score(d,NE)=α×simt(d,NE)-β×dist(d,NE)
其中,simt(d,NE)为文档d与已知事件NE之间内容相似度,dist(d,NE)为文档d与已知事件NE之间的时间距离,α为内容相似度权重,β为时间距离的权重,从而可得候选事件ce与已知事件NE的相似度:
SIM ( ce , NE ) = 1 N &Sigma; i = 1 N Score ( d i , NE )
其中,SIM(ce,NE)为候选事件ce与已知事件NE的相似度,N为候选事件ce中的文档数量,Score(di,NE)为候选事件ce中第i个文档di与已知事件NE之间的相似度。
若SIM(ce,NE)大于阈值θ时,则将候选事件ce标记为已知事件,并将候选事件ce下的文档合并到已知事件NE中;否则,将其标记为一个新事件;其中,阈值θ是通过机器学习方法多次训练后确定。
S43:将新事件合并到已知事件列表中,并重新设置阈值θ,重复步骤S42,直到所有的候选事件都分类完毕;然后,重新针对更新后的文档集合D0进行特征提取和特征选择,等待处理下一批新爬取的Web页面。
与现有技术相比,本发明具有以下优点:
本发明通过对网页进行链接拓扑分析和内容分析,通过网页爬取算法对未爬取的网页进行主题相关度估计,避免了网络爬虫对Web图的完全遍历,提高了系统的爬取效率。实验表明,采用传统的宽度优先策略进行网页抓取,抓取到的网页的主题相关度不到10%,而采用本发明提出的网页爬取策略,抓取网页的主题相关度平均在80%以上。
通过改进特征词权重计算方法以及在增量聚类算法中引入时间距离因素,提高了运算效率和主题事件识别的准确率。实验表明,考虑时间距离后,系统的漏报率和误报率都有明显降低。
附图说明
图1是本发明所述农产品质量安全事件在线检测方法的流程图;
图2是本发明实施例引入时间距离因素对系统检测性能的影响。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,网络爬虫从指定网站上爬取农产品质量安全领域的网页,指定网站通常包括:新闻门户、政府类网站、三农资讯网站、网络论坛、搜索引擎等类型的Web站点。新闻门户主要包括:新华网、腾讯网、新浪网、搜狐网、网易、人民网、凤凰网等大型新闻门户;政府类网站主要包括:农业部、国家质检总局、国家食药监局、消协及各地农委或农业局、工商局网站等政府类网站,三农资讯网站主要包括:中国农产品质量安全网、中国现代农业网等,网络论坛主要包括:天涯论坛、百度贴吧、新浪微博等,搜索引擎主要指:百度新闻版块、谷歌新闻版块等。将指定网站的主页作为种子页面,把种子页面的URL加入到初始URL列表中,利用宽度优先策略进行网页抓取,通过对网页进行链接拓扑分析和词法分析,实现网络爬虫的主题爬行。
实施例所述农产品质量安全事件在线检测方法的流程图如图1所示,具体包括以下步骤:
S1:利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面,将其下载到本地计算机上,对其进行预处理后存储到本地数据库中,预处理的Web页面构成初始文档集合D0,为D0中的文档建立倒排索引。具体包括以下步骤:
S11:设定初始种子URL列表(即种子网页),主题爬虫程序首先从种子网页开始,利用网页间的超链接关系和超链接文本内容,分别加以链接拓扑分析和词法分析,进行领域主题相关的网页推测和选择。
S12:对爬取到的网页进行预处理,主要包括:HTML域块识别、页面内容抽取、HTML标签移除、中文分词、停用词移除等。
S13:将预处理后的Web页面以及原始网页分别保存到本地数据库中,基于特征词集合为Web页面建立倒排索引,用于后续处理中的快速文档检索。
实际应用中,通过构建农产品质量安全领域本体,借助领域本体的语义功能实现特征词之间的语义转换与合并。例如:对于特征词“番茄”和“西红柿”,则认为是同一特征词。
S2:对初始文档集合D0进行主题特征抽取,经过特征空间降维后形成特征词集合,利用改进后的增量TF-IDF模型进行文本特征表示,将初始文档集合D0转化为一组特征向量,基于改进的特征词权重计算方法计算每一特征词的权重。具体包括以下步骤:
S21:根据Web文档中HTML标签类型(如<title>、<meta>等)及其所在位置的重要程度,将每个文档在逻辑上分为若干种不同类型的文本块。
S22:计算特征词的加权频率。
S23:计算特征词的文档频率。
S24:计算特征词的逆向文档频率。
S25:计算t时刻特征词在文档中的权重。
S26:计算t时刻文档di和文档dj之间的内容相似度。
S3:利用层次聚类法对文档集合D0进行聚类训练,训练出类间相似度距离的阈值,进而将文档集合D0划分为多个类簇,每个类簇代表一个主题事件,从每个主题事件的文档中选择若干个权重较高的特征词描述该事件,将上述聚类出的事件作为初始已知事件。
S4:通过引入时间因素,构建一种基于时间窗口的Single-Pass增量聚类算法,对当前新增网页集合Dt进行增量聚类,从当前新增文档中聚类出候选事件,计算候选事件与已知事件的距离,根据步骤S3中训练出的阈值,把候选事件判定为新事件或已知事件。具体包括以下步骤:
S41:设最大等待时间为△Tmax,最大新增网页数为△Dmax,设当前已等待时间为△t,若△t≥△Tmax且|Dt|<△Dmax,或|△t<△Tmax且Dt|≥△Dmax,则对新增网页集合Dt进行Single-Pass增量聚类,得到候选事件集合CandE={ce1,ce2,...,ce|CandE|},|CandE|为集合CandE的元素个数。
S42:计算集合CandE中每个候选事件ce与已知事件NE的相似度,通过引入时间距离因素,提高效率和运算速度。
S43:将新事件合并到已知事件列表中,并重新设置阈值θ,重复步骤S42,直到所有的候选事件都分类完毕;然后,重新针对更新后的文档集合D0进行特征提取和特征选择,等待处理下一批新爬取的Web页面。
为了验证本发明所述方法的有效性,以“苏丹红”、“毒豇豆”、“三聚氰胺”、“瘦肉精”、湖南“镉大米”、“福喜过期肉”等几个典型农产品质量安全事件的Web文档为语料库,分别采用传统的宽度优先策略和本发明提出的网页爬取策略,进行农产品质量安全领域主题网页爬取。实验表明,采用传统的宽度优先策略进行网页抓取,抓取到的网页的主题相关度不到10%,而采用本发明提出的网页爬取策略,抓取网页的主题相关度平均在80%以上。
进一步地,为了验证时间距离对系统检测效果的影响,测出了考虑时间距离与未考虑时间距离两种情况下系统的漏报率和误报率,实验结果如图2所示。从图2可以看出,考虑时间距离后,系统的漏报率和误报率都有明显降低。例如,误报率为5%时,未考虑时间距离时跟踪系统的漏报率为55%,考虑时间距离后的漏报率为36%。

Claims (5)

1.一种农产品质量安全事件在线检测方法,其特征在于,所述方法包括:
S1:利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面,将其下载到本地计算机上,对其进行预处理后存储到本地数据库中,预处理的Web页面构成初始文档集合D0,并为D0中的文档建立倒排索引;
S2:对初始文档集合D0进行主题特征抽取,经过特征空间降维后形成特征词集合V={v1,v2,…,v|V|},|V|为特征词的个数,利用改进的增量TF-IDF模型进行文本特征表示,将初始文档集合D0转化为一组特征向量,基于改进的特征词权重计算方法计算每一特征词的权重;
S3:利用层次聚类法对文档集合D0进行聚类训练,训练出类间相似度距离的阈值,进而将文档集合D0划分为多个类簇,每个类簇代表一个主题事件,从每个主题事件的文档中选择若干个权重较高的特征词描述该事件,将上述聚类出的事件作为初始已知事件;
S4:引入时间因素,构建一种基于时间窗口的Single-Pass增量聚类算法,对当前新增网页集合Dt进行增量聚类,从当前新增文档中聚类出候选事件,计算候选事件与已知事件的距离,根据步骤S3中训练出的阈值,把候选事件判定为新事件或已知事件。
2.根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤S1还包括以下步骤:
S11:设定初始种子URL列表,主题爬虫程序首先从种子网页开始,利用网页间的超链接关系和超链接文本内容,分别加以链接拓扑分析和词法分析,进行领域主题相关的网页推测和选择,具体如下:
从一源网页出发,随着链接距离增加,训练出网页之间内容相似度的变化函数,使用网页p1和p2之间夹角的余弦σ(p1,p2)作为相似度衡量指标,从而测得两者之间的链接距离δ1(p1,p2);对每个主题q,在每个爬取深度为h的爬取集合中,所测得的距离δ1(p1,p2)和相似度σ(p1,p2)对所有网页p求平均值:
&delta; ( q , h ) = 1 N h q &Sigma; i = 1 h i ( N i q - N i - 1 q )
&sigma; ( q , h ) = 1 N h q &Sigma; p &Element; P h q &sigma; ( q , p )
其中,δ(q,h)为网页集合的平均链接距离,σ(q,h)为网页集合的平均相似度,是网页集合的大小;
S12:对爬取到的网页进行预处理,包括:HTML域块识别、页面内容抽取、HTML标签移除、中文分词、停用词移除;
S13:将预处理后的Web页面以及原始网页分别保存到本地数据库中,基于特征词集合V={v1,v2,…,v|V|}为Web页面建立倒排索引。
3.根据权利要求2所述的农产品质量安全事件在线检测方法,其特征在于,步骤S12所述HTML域块识别是指利用正则表达式辨别出Web页面中的HTML域;所述页面内容提取是指基于DOM树匹配或基于位置和外观的特性建立机器学习模型,提取Web页面中的主要内容块;所述中文分词是指利用分词软件对抽取出的中文文本进行分词处理;所述停用词移除是指基于停用词列表剔除文本中的冠词、介词、连词以及一些代词。
4.根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤S2还包括以下步骤:
S21:根据Web文档中HTML标签类型及其所在位置的重要程度,将每个文档在逻辑上分为若干种不同类型的文本块,记为{s1,s2,…,s|s|};每个文本块si对应的文本长度为Li,分别记为{L1,L2,…,L|s|},其中|S|为文档的分块数;
S22:计算特征词vk的加权频率:
tf ( v k , d i ) = &Sigma; j = 1 | s | tf ij k L ij &times; sw ij
其中,tf(vk,di)表示特征词tk在文档di中的加权频率,Lij为文档di中第j个文本块sj的文本长度,为特征词tk在文档di中第j个文本块sj中实际出现的频率,swij为文档di的第j个文本块sj的位置权重;
S23:计算特征词vk的文档频率:
df t + 1 ( v k ) = df t ( v k ) + df D t + 1 ( v k )
其中,dft+1(vk)为特征词vk在t+1时刻的文档频率,dft(vk)为特征词vk在t时刻的文档频率,Dt为时间段[t,t+1]内新增加的文档集合,为特征词vk在文档集合Dt中的文档频率;
S24:计算特征词vk的逆向文档频率idft(vk):
idft(vk)=log2(N/df(vk)+1)
其中,N为文档集合D中文档的数量,df(vk)为特征词vk的文档频率;
S25:计算t时刻特征词vk在文档di中的权重weightt(vk,di):
wei ght t ( v k , d i ) = 1 Z t ( d ) tf ( v k , d i ) * idf t ( v k )
其中,Zt(d)为归一化常量;
S26:计算t时刻文档di和文档dj之间的内容相似度simt(di,dj):
sim t ( d i , d j ) = &Sigma; k = 1 | V | weight t ( v k , d i ) &times; weight t ( v k , d j ) &Sigma; k = 1 | V | weight t ( v k , d i ) 2 &times; &Sigma; k = 1 | V | weight t ( v k , d j ) 2
其中,weightt(vk,di)表示t时刻特征词vk在文档di中的权重,weightt(vk,dj)表示t时刻特征词vk在文档dj中的权重,|V|为特征词集合V中的元素个数。
5.根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤S4还包括以下步骤:
S41:设定最大等待时间为ΔTmax,最大新增网页数为ΔDmax,设当前已等待时间为Δt,若Δt≥ΔTmax且|Dt|<ΔDmax,或|Δt<ΔTmax且Dt|≥ΔDmax,则对新增网页集合Dt进行Single-Pass增量聚类,得到候选事件集合CandE={ce1,ce2,…,ce|CandE|},|CandE|为集合CandE的元素个数;
S42:计算集合CandE中每个候选事件ce与已知事件NE的相似度,通过引入时间距离因素,提高效率和运算速度,候选事件的文档d与已知事件NE之间的时间距离为:
dis time ( d , NE ) = min { | time d - time NE s | , | time d - time NE l | }
其中,是已知事件NE的开始发生时间,是已知事件NE的最近报道时间,timed是文档d的产生时间,文档d与已知事件NE之间的相似度为:
Score(d,NE)=α×simt(d,NE)-β×dist(d,NE)
其中,simt(d,NE)为文档d与已知事件NE之间内容相似度,dist(d,NE)为文档d与已知事件NE之间的时间距离,α为内容相似度权重,β为时间距离的权重;
候选事件ce与已知事件NE的相似度为:
SIM ( ce , NE ) = 1 N &Sigma; i = 1 N Score ( d i , NE )
其中,SIM(ce,NE)为候选事件ce与已知事件NE的相似度,N为候选事件ce中的文档数量,Score(di,NE)为候选事件ce中第i个文档di与已知事件NE之间的相似度;
若SIM(ce,NE)大于阈值θ,则将候选事件ce标记为已知事件,并将候选事件ce下的文档合并到已知事件NE中;否则,将其标记为一个新事件;其中,阈值θ通过机器学习方法多次训练后确定;
S43:将新事件合并到已知事件列表中,并重新设置阈值θ,重复步骤S42,直到所有的候选事件都分类完毕;然后,重新针对更新后的文档集合D0进行特征提取和特征选择,等待处理下一批新爬取的Web页面。
CN201410855584.0A 2014-12-31 2014-12-31 一种农产品质量安全事件在线检测方法 Active CN104572977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410855584.0A CN104572977B (zh) 2014-12-31 2014-12-31 一种农产品质量安全事件在线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410855584.0A CN104572977B (zh) 2014-12-31 2014-12-31 一种农产品质量安全事件在线检测方法

Publications (2)

Publication Number Publication Date
CN104572977A true CN104572977A (zh) 2015-04-29
CN104572977B CN104572977B (zh) 2017-09-29

Family

ID=53089039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410855584.0A Active CN104572977B (zh) 2014-12-31 2014-12-31 一种农产品质量安全事件在线检测方法

Country Status (1)

Country Link
CN (1) CN104572977B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850609A (zh) * 2015-05-08 2015-08-19 湖北光谷天下传媒股份有限公司 一种针对跳字类关键词的过滤方法
CN104866547A (zh) * 2015-05-08 2015-08-26 湖北光谷天下传媒股份有限公司 一种针对组合字类关键词的过滤方法
CN105183835A (zh) * 2015-08-31 2015-12-23 小米科技有限责任公司 社交软件中信息标记的方法及装置
CN107194823A (zh) * 2017-08-01 2017-09-22 中国农业科学院农业信息研究所 一种移动终端农业监测预警方法及系统
CN107357888A (zh) * 2017-07-10 2017-11-17 北京小度信息科技有限公司 原料信息的提供方法、装置和电子设备
CN107908624A (zh) * 2017-12-12 2018-04-13 太原理工大学 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN106021063B (zh) * 2016-05-09 2018-05-29 北京蓝海讯通科技股份有限公司 聚合事件消息的方法、应用及系统
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和系统
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN111460160A (zh) * 2020-04-02 2020-07-28 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及系统
CN114444986A (zh) * 2022-04-11 2022-05-06 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250026A1 (en) * 2001-10-24 2008-10-09 Linden Gregory D Recommendations based on cross-site browsing activities of users
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN102236710A (zh) * 2011-06-30 2011-11-09 百度在线网络技术(北京)有限公司 一种用于在查询结果中展现新闻信息的方法与设备
CN102541947A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN102880623A (zh) * 2011-07-13 2013-01-16 富士通株式会社 同名人物搜索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250026A1 (en) * 2001-10-24 2008-10-09 Linden Gregory D Recommendations based on cross-site browsing activities of users
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN102541947A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN102236710A (zh) * 2011-06-30 2011-11-09 百度在线网络技术(北京)有限公司 一种用于在查询结果中展现新闻信息的方法与设备
CN102880623A (zh) * 2011-07-13 2013-01-16 富士通株式会社 同名人物搜索方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866547A (zh) * 2015-05-08 2015-08-26 湖北光谷天下传媒股份有限公司 一种针对组合字类关键词的过滤方法
CN104850609B (zh) * 2015-05-08 2019-04-23 湖北荆楚网络科技股份有限公司 一种针对跳字类关键词的过滤方法
CN104850609A (zh) * 2015-05-08 2015-08-19 湖北光谷天下传媒股份有限公司 一种针对跳字类关键词的过滤方法
CN104866547B (zh) * 2015-05-08 2019-04-23 湖北荆楚网络科技股份有限公司 一种针对组合字类关键词的过滤方法
CN105183835B (zh) * 2015-08-31 2018-09-04 小米科技有限责任公司 社交软件中信息标记的方法及装置
CN105183835A (zh) * 2015-08-31 2015-12-23 小米科技有限责任公司 社交软件中信息标记的方法及装置
CN106021063B (zh) * 2016-05-09 2018-05-29 北京蓝海讯通科技股份有限公司 聚合事件消息的方法、应用及系统
CN107357888A (zh) * 2017-07-10 2017-11-17 北京小度信息科技有限公司 原料信息的提供方法、装置和电子设备
CN107194823A (zh) * 2017-08-01 2017-09-22 中国农业科学院农业信息研究所 一种移动终端农业监测预警方法及系统
CN107908624A (zh) * 2017-12-12 2018-04-13 太原理工大学 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和系统
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN108733791B (zh) * 2018-05-11 2020-11-20 北京科技大学 网络事件检测方法
CN111460160A (zh) * 2020-04-02 2020-07-28 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN111460160B (zh) * 2020-04-02 2023-08-18 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及系统
CN114444986A (zh) * 2022-04-11 2022-05-06 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质
CN114444986B (zh) * 2022-04-11 2022-06-03 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质

Also Published As

Publication number Publication date
CN104572977B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN104572977B (zh) 一种农产品质量安全事件在线检测方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
US9015802B1 (en) Personally identifiable information detection
CN106685936B (zh) 网页篡改的检测方法及装置
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN102750390B (zh) 新闻网页要素自动提取方法
CN104199874A (zh) 一种基于用户浏览行为的网页推荐方法
CN102509233A (zh) 一种基于用户网上动作信息的推荐方法
CN102651012A (zh) 互联网新闻文本之间的转载关系识别方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN103605794A (zh) 一种网站分类方法
CN103678528B (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN104182412A (zh) 一种网页爬取方法及系统
CN103177036A (zh) 一种标签自动提取方法和系统
CN102591965A (zh) 一种黑链检测的方法及装置
Henrys Importance of web scraping in e-commerce and e-marketing
CN101706812A (zh) 一种文档的检索方法和装置
CN100458797C (zh) 一种对网络广告进行排序的方法
Dueñas-Fernández et al. Detecting trends on the web: A multidisciplinary approach
Gopal et al. Machine learning based classification of online news data for disaster management
CN103914538A (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN104063506A (zh) 重复网页识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant