CN104573008A - 一种网络信息的监控方法及装置 - Google Patents

一种网络信息的监控方法及装置 Download PDF

Info

Publication number
CN104573008A
CN104573008A CN201510009962.8A CN201510009962A CN104573008A CN 104573008 A CN104573008 A CN 104573008A CN 201510009962 A CN201510009962 A CN 201510009962A CN 104573008 A CN104573008 A CN 104573008A
Authority
CN
China
Prior art keywords
network information
feature
participle
eigenwert
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510009962.8A
Other languages
English (en)
Other versions
CN104573008B (zh
Inventor
郑战海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201510009962.8A priority Critical patent/CN104573008B/zh
Publication of CN104573008A publication Critical patent/CN104573008A/zh
Application granted granted Critical
Publication of CN104573008B publication Critical patent/CN104573008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于信息技术领域,提供了一种网络信息监控方法及装置,包括:抓取终端上发送和接收到的网络信息;对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词;将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征;根据匹配结果统计所述网络信息中每个所述特征的特征值;展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。

Description

一种网络信息的监控方法及装置
技术领域
本发明属于信息技术领域,尤其涉及一种网络信息的监控方法及装置。
背景技术
随着网络用户年龄层越来越低龄化,许多心智尚未成熟的孩子已拥有了自己的网络社交账号与网络社交圈,在网络社交圈内,孩子能阅读到各式各样的网络信息,同时孩子也可以自己发布网络信息,或者对阅读到的网络信息做出回应。
然而,在目前的网络大环境之下,网络社交圈内充斥着杂乱的负面信息,由于孩子缺少主观的判断能力,面对这些负面信息时,其心智和情绪极容易被影响,需要父母及时地对孩子的网络行为进行监控。然而,目前,父母只能通过翻阅孩子网络行为的历史记录,获知孩子浏览过的网络信息以及孩子发出的网络信息,以此来判断出孩子的网络行为是否存在负面倾向,该方法会耗费大量的时间成本,且存在着信息遗漏导致监控不全面的风险,导致父母对与孩子相关的网络信息的监控不到位。
发明内容
本发明实施例的目的在于提供一种网络信息的监控方法及装置,旨在解决现有技术中无法有效地对网络信息进行监控的问题。
本发明实施例是这样实现的,一种网络信息监控方法,包括:
抓取终端上发送和接收到的网络信息;
对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词;
将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征;
根据匹配结果统计所述网络信息中每个所述特征的特征值;
展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
本发明实施例的另一目的在于提供一种网络信息监控装置,包括:
抓取单元,用于抓取终端上发送和接收到的网络信息;
分词单元,用于对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词;
匹配单元,用于将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征;
统计单元,用于根据匹配结果统计所述网络信息中每个所述特征的特征值;
监控单元,用于展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
本发明实施例在后台自动抓取网络信息,并对网络信息进行分词处理和特征统计,从而直观地显示出对网络信息各种特征的分析结果,便于监控人员高效地实现对网络信息的监控。
附图说明
图1是本发明实施例提供的网络信息监控方法的实现流程图;
图2是本发明实施例提供的网络信息监控方法S104的具体实现流程图;
图3是本发明另一实施例提供的网络信息监控方法的实现流程图;
图4是本发明实施例提供的网络信息监控装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的网络信息监控方法的实现流程,详述如下:
在S101中,抓取终端上发送和接收到的网络信息。
所述终端,包括具备网络通信功能的手机、平板、笔记本、计算机等终端设备。所述终端上发送的网络信息,包括利用浏览器或者客户端发布在网络中的信息,例如,发布在社交网站、论坛、新闻评论中的网络信息;所述终端上接收到的网络信息,包括利用浏览器或者客户端下载并进行浏览的网络信息,例如,访问新闻站点、社交应用、论坛等时浏览的网络信息。
在本实施例中,通过访问浏览器或者客户端的后台历史记录,抓取到终端上发送和接收到的网络信息。
作为本发明的一个实施例,S101具体为,每隔预设时间抓取所述终端上发送和接收到的网络信息。
例如,每隔一周或者每隔一个月执行一次网络信息的抓取,以对最近一周或者最近一个月内网络信息的监控,从而实现对网络信息的定期监控。
在S102中,对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词。
由于网络信息中可能包含图片、音频、视频等数据,因此,在本实施例中,执行S102之前,首先需要提取出网络信息中的文本数据,例如发布在社交网站、论坛、新闻站点等信息发布平台上的文本。在此,需要说明的是,对于网络信息中的表情数据,比如发布在论坛中的表情符号或者表情头像,也可以根据其对应的网页代码,将其转换为相应的文本信息。
对文本进行分词处理,首先对文本进行分词切割,将文本切割成若干词语,再过滤掉其中的助词、连词等虚词,从而得到若干能够表示某种特定特征的分词。
在S103中,将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征。
在本实施例中,预设建立好存储了不同的词语以及存储了每个词语所对应的特征的数据库,其中,所述特征可以包括情绪特征。以情绪特征为例,可以包括愤怒、伤心、高兴、忧郁,等等,通过对采集到的海量文本数据进行相近词义、相关联想、短句的简单语义分析等数据处理,在数据库中建立关于每一种情绪特征的词库。且建立好的数据库也可以在后续的使用过程中不断地采集新的数据,对相应的词库添加使用频次较高的新词语或者网络用语,以提高数据库的数据完整性。
将S102中提取出的分词一一在预设数据库的每一个词库中进行匹配,判断一个分词出现在数据库中的哪一个词库中,或者该分词与数据库中的哪一个词库中的某个词语语义最为近似,则将该词库所代表的特征作为该分词的特征。例如,分词“生气”在代表愤怒情绪特征的词库中完成了匹配,则为该分词赋予愤怒的情绪特征。
在S104中,根据匹配结果统计所述网络信息中每个所述特征的特征值。
作为本发明的一个实施例,S104具体为:
统计每个所述特征之下的所述分词的数量,以得到所述网络信息中每个所述特征的特征值。
根据每个分词得到的特征,分别统计每个特征之下的分词数量,并将该数量作为相应的特征的特征值。例如,代表愤怒特征的分词有5个,则该愤怒特征的特征值为5,代表高兴特征的分词有10个,则该高兴特征的特征值为10。
作为本发明的另一实施例,如图2所示,S104具体为:
在S201中,获取每个所述分词所属的所述网络信息的发布来源。
在S202中,获取每个所述发布来源对应的权重。
网络信息可以来自不同的发布来源,而在本实施例中,为不同的发布来源设置不同的权重。例如,对于情绪特征来说,社交网络中发布的网络信息的情绪倾向比新闻站点浏览内容的情绪倾向更加容易反映真实的情绪,则社交网络的权重要比新闻站点的权重大。进一步地,还可以根据不同分词所表达的情绪的强弱不同,为不同强弱等级的情绪赋予不同的权重。
在S203中,根据每个所述发布来源对应的权重,对每个所述特征之下的所述分词的数量进行加权处理,以得到所述网络信息中每个所述特征的特征值。
通过加权处理,得到的每个特征的特征值能够更加真实地反馈不同的特征表现。
在S105中,展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
最终的展示可以为各种特征占比的示意图,以直观地展示某一时期内网络浏览行为的特征倾向。进一步地,还可以联网采集其他终端在同一时期内生成的各种特征占比的示意图,以实现不同网络用户之间的网络访问行为比对。
进一步地,如图3所示,在S105之后,所述方法还包括:
S106,判断是否存在任意一个所述特征的特征值超出预设的阈值范围。
S107,当存在任意一个所述特征的特征值超出预设的阈值范围时,发出预警信息。
在本实施例中,可以为每一个特征设定一个预警阈值范围,一旦某个特征的特征值低于或者超出该预警阈值范围,则通过文字、声音、震动等提示方式发出预警信息,从而实现对非正常监控结果的预警。
本发明实施例在后台自动抓取网络信息,并对网络信息进行分词处理和特征统计,从而直观地显示出对网络信息各种特征的分析结果,便于监控人员高效地实现对网络信息的监控。
本发明实施例提供的网络信息监控方法可以应用于青少年的网络通信设备使用场景之下,通过统计低龄网络用户在参与网络论坛、社区、群组等社交圈的讨论,或者访问新闻、小说等站点的浏览记录,能够直观地统计出此类网络用户在网络访问期间的情绪倾向,便于此类网络用户的监护人更好地了解此类网络用户的网络行为,引导青少年的心理健康成长。
对应于上文实施例所述的网络信息监控方法,图4示出了本发明实施例提供的网络信息监控装置的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参照图4,该装置包括:
抓取单元41,抓取终端上发送和接收到的网络信息。
分词单元42,对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词。
匹配单元43,将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征。
统计单元44,根据匹配结果统计所述网络信息中每个所述特征的特征值。
监控单元45,展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
可选地,所述统计单元44具体用于:
统计每个所述特征之下的所述分词的数量,以得到所述网络信息中每个所述特征的特征值。
可选地,所述统计单元44包括:
第一获取单元,获取每个所述分词所属的所述网络信息的发布来源。
第二获取单元,获取每个所述发布来源对应的权重。
加权单元,根据每个所述发布来源对应的权重,对每个所述特征之下的所述分词的数量进行加权处理,以得到所述网络信息中每个所述特征的特征值。
可选地,所述抓取单元41具体用于:
每隔预设时间抓取所述终端上发送和接收到的网络信息。
可选地,所述装置还包括:
判断单元,判断是否存在任意一个所述特征的特征值超出预设的阈值范围;
预警单元,当存在任意一个所述特征的特征值超出预设的阈值范围时,发出预警信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络信息监控方法,其特征在于,包括:
抓取终端上发送和接收到的网络信息;
对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词;
将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征;
根据匹配结果统计所述网络信息中每个所述特征的特征值;
展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
2.如权利要求1所述的方法,其特征在于,所述根据匹配结果统计所述网络信息中每个所述特征的特征值包括:
统计每个所述特征之下的所述分词的数量,以得到所述网络信息中每个所述特征的特征值。
3.如权利要求1所述的方法,其特征在于,所述根据匹配结果统计所述网络信息中每个所述特征的特征值包括:
获取每个所述分词所属的所述网络信息的发布来源;
获取每个所述发布来源对应的权重;
根据每个所述发布来源对应的权重,对每个所述特征之下的所述分词的数量进行加权处理,以得到所述网络信息中每个所述特征的特征值。
4.如权利要求1所述的方法,其特征在于,所述抓取终端上发送和接收到的网络信息包括:
每隔预设时间抓取所述终端上发送和接收到的网络信息。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
判断是否存在任意一个所述特征的特征值超出预设的阈值范围;
当存在任意一个所述特征的特征值超出预设的阈值范围时,发出预警信息。
6.一种网络信息监控装置,其特征在于,包括:
抓取单元,用于抓取终端上发送和接收到的网络信息;
分词单元,用于对所述网络信息的文本进行分词处理,并提取出分词处理得到的分词;
匹配单元,用于将提取出的所述分词一一在预设数据库中进行匹配,确定每个所述分词的特征,所述预设数据库中预先存储了不同的词语及每个所述词语对应的特征;
统计单元,用于根据匹配结果统计所述网络信息中每个所述特征的特征值;
监控单元,用于展示统计的结果,以使得用户根据所述统计的结果对所述网络信息进行监控。
7.如权利要求6所述的装置,其特征在于,所述统计单元具体用于:
统计每个所述特征之下的所述分词的数量,以得到所述网络信息中每个所述特征的特征值。
8.如权利要求6所述的装置,其特征在于,所述统计单元包括:
第一获取单元,用于获取每个所述分词所属的所述网络信息的发布来源;
第二获取单元,用于获取每个所述发布来源对应的权重;
加权单元,用于根据每个所述发布来源对应的权重,对每个所述特征之下的所述分词的数量进行加权处理,以得到所述网络信息中每个所述特征的特征值。
9.如权利要求6所述的装置,其特征在于,所述抓取单元具体用于:
每隔预设时间抓取所述终端上发送和接收到的网络信息。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
判断单元,用于判断是否存在任意一个所述特征的特征值超出预设的阈值范围;
预警单元,用于当存在任意一个所述特征的特征值超出预设的阈值范围时,发出预警信息。
CN201510009962.8A 2015-01-08 2015-01-08 一种网络信息的监控方法及装置 Active CN104573008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510009962.8A CN104573008B (zh) 2015-01-08 2015-01-08 一种网络信息的监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510009962.8A CN104573008B (zh) 2015-01-08 2015-01-08 一种网络信息的监控方法及装置

Publications (2)

Publication Number Publication Date
CN104573008A true CN104573008A (zh) 2015-04-29
CN104573008B CN104573008B (zh) 2017-11-21

Family

ID=53089070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510009962.8A Active CN104573008B (zh) 2015-01-08 2015-01-08 一种网络信息的监控方法及装置

Country Status (1)

Country Link
CN (1) CN104573008B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI663520B (zh) * 2017-04-07 2019-06-21 大陸商平安科技(深圳)有限公司 話題預警的方法和裝置
CN110796565A (zh) * 2019-10-14 2020-02-14 广州供电局有限公司 监理日志的分析方法及分析系统
CN116072297A (zh) * 2023-03-09 2023-05-05 深圳市人马互动科技有限公司 基于小说互动确定心理健康数据的方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
US20090077028A1 (en) * 2007-09-18 2009-03-19 Gosby Desiree D G Web services access to classification engines
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
CN101887443A (zh) * 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
US20130246386A1 (en) * 2010-12-03 2013-09-19 Microsoft Corporation Identifying key phrases within documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
US20090077028A1 (en) * 2007-09-18 2009-03-19 Gosby Desiree D G Web services access to classification engines
CN101887443A (zh) * 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
US20130246386A1 (en) * 2010-12-03 2013-09-19 Microsoft Corporation Identifying key phrases within documents
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI663520B (zh) * 2017-04-07 2019-06-21 大陸商平安科技(深圳)有限公司 話題預警的方法和裝置
US11205046B2 (en) 2017-04-07 2021-12-21 Ping An Technology (Shenzhen) Co., Ltd. Topic monitoring for early warning with extended keyword similarity
CN110796565A (zh) * 2019-10-14 2020-02-14 广州供电局有限公司 监理日志的分析方法及分析系统
CN116072297A (zh) * 2023-03-09 2023-05-05 深圳市人马互动科技有限公司 基于小说互动确定心理健康数据的方法及相关装置
CN116072297B (zh) * 2023-03-09 2023-06-06 深圳市人马互动科技有限公司 基于小说互动确定心理健康数据的方法及相关装置

Also Published As

Publication number Publication date
CN104573008B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN108881339B (zh) 推送方法、用户标签的生成方法、装置及设备
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN108241667A (zh) 用于推送信息的方法和装置
CN108509326B (zh) 一种基于nginx日志的服务状态统计方法及系统
CN104462509A (zh) 垃圾评论检测方法及装置
CN101340308B (zh) 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法
CN102315953B (zh) 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN111278014A (zh) 一种防诈骗系统、方法、服务器及存储介质
CN102750299B (zh) 一种网上信息汇聚的方法
CN102609460A (zh) 微博客数据采集方法及系统
CN104317804B (zh) 发布投票信息的方法和装置
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN102469435A (zh) 一种提高移动终端的终端型号识别准确率的方法及装置
CN107480123A (zh) 一种垃圾弹幕的识别方法、装置及计算机设备
CN103488635A (zh) 一种获取产品信息的方法及装置
CN104794125A (zh) 一种垃圾短信的识别方法及装置
CN103905971A (zh) 一种推荐话务套餐的方法及装置
CN106599075A (zh) 一种统计用户行为数据的方法及装置
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN103810623A (zh) 一种实时的自动营销方法及系统
CN104462320A (zh) 一种实现网络用户分类的方法及装置
CN104750760A (zh) 一种推荐应用软件的实现方法及装置
CN104573008A (zh) 一种网络信息的监控方法及装置
CN105512300B (zh) 信息过滤方法及系统
CN106487642A (zh) 一种推送信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant