CN117669558A - 网络信息的监控方法、装置、电子设备及存储介质 - Google Patents
网络信息的监控方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117669558A CN117669558A CN202210973289.XA CN202210973289A CN117669558A CN 117669558 A CN117669558 A CN 117669558A CN 202210973289 A CN202210973289 A CN 202210973289A CN 117669558 A CN117669558 A CN 117669558A
- Authority
- CN
- China
- Prior art keywords
- user
- monitoring
- page
- network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 192
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000013515 script Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000012806 monitoring device Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 235000019633 pungent taste Nutrition 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本公开提供了一种网络信息的监控方法、装置及电子设备,该方法包括:获取用户标识以及监控关键词;获取与所述用户标识和所述监控关键词均相关联的网络页面,并对获取到的网络页面进行解析,得到目标网络内容;根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理。该方式更加适配当前用户的业务种类,进而能够提升监控的精准性。
Description
技术领域
本申请涉及网络信息的监控技术领域,特别涉及一种网络信息的监控方法、装置、电子设备及存储介质。
背景技术
随着用户数量的指数级上升,互联网中可供查阅的网络信息的数量也日益增多。由于互联网的普及程度越来越高,因此,网络信息的种类和数量都呈现出爆发式的增长。并且,网络信息的来源和形式也日益多样化。普通用户可通过多种渠道发布或浏览各种形式的网络信息。
在网络信息日益繁杂的情况下,如何对网络信息进行监控,以防止因虚假信息或错误信息的传播而导致的不良影响,成为目前亟待解决的技术难题。在相关技术中,通常采用人工监控的方式,识别网络信息中是否存在虚假或违规的内容。但是,人工监控方式不仅繁琐低效,而且容易遗漏,准确性不高。
发明内容
本公开提供一种网络信息的监控方法、装置、电子设备及存储介质,用以解决现有技术中的网络信息的监控方式繁琐低效,而且容易遗漏,准确性不高的问题。
第一方面,本公开提供了一种网络信息的监控方法,包括:
获取用户标识以及监控关键词;
获取与所述用户标识和所述监控关键词均相关联的网络页面,并对获取到的网络页面进行解析,得到目标网络内容;
根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;
获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;
若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理。
第二方面,本公开提供了一种网络信息的监控装置,包括:
获取模块,适于获取用户标识以及监控关键词;
解析模块,适于根据所述用户标识获取与所述监控关键词相关联的网络页面,对获取到的网络页面进行解析,得到目标网络内容;
分词模块,适于根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;
监控模块,适于获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理。
第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的网络信息的监控方法。
第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述的网络信息的监控方法。
本公开所提供的实施例,能够根据获取到的用户标识以及监控关键词;自动获取与用户标识和监控关键词均相关联的网络页面,并解析得到目标网络内容,并且,能够根据与用户标识相对应的用户词库,自动对目标网络内容进行分词处理,得到分词结果,最后,根据获取到的信息分类策略以及分词结果对网络页面进行分类处理,得到网络页面的页面类型,以实现针对指定类型的监控处理。由此可见,在该方式中,一方面,能够根据用户标识以及监控关键词自动获取网络页面并进行监控;另一方面,由于获取网络页面的过程中,是根据用户标识确定的对应于当前用户的页面,因此,获取到的网络页面与用户类型更加匹配;而且,用户词库以及信息分类策略也都是根据用户标识确定的,因而更加适配当前用户的业务种类,进而能够提升监控的精准性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种网络信息的监控方法的流程图;
图2为本公开又一实施例提供的一种网络信息的监控方法的流程图;
图3为本公开的具体示例中的舆情监控系统的结构示意图;
图4为本公开实施例提供的一种网络信息的监控装置的框图;
图5为本公开实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
本公开实施例提供了一种网络信息的监控方法。根据本公开实施例的网络信息的监控方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。服务器可以是独立的物理服务器、由多个服务器组成的服务器集群以及能够进行云计算的云服务器。
图1为本公开的一个实施例提供的一种网络信息的监控方法的流程图。参照图1,该方法包括:
步骤S110:获取用户标识以及监控关键词。
其中,用户标识用于唯一标识当前用户,该用户可以为企业用户。监控关键词用于表示待监控的网络信息的类型。例如,监控关键词可根据企业用户所关注的业务动态、行业新闻等内容设定。具体的,用户标识以及监控关键词既可以根据当前接收到的关键配置请求实时获取,也可以预先将各个用户的用户标识以及监控关键词配置到指定的用户配置库中,并从用户配置库中获取与当前用户相对应的用户标识以及监控关键词。总之,本申请不限定用户标识以及监控关键词的具体获取方式。
步骤S120:获取与用户标识和监控关键词均相关联的网络页面,并对获取到的网络页面进行解析,得到目标网络内容。
由于不同类型的用户所关注的网络信息的种类和来源可能各不相同,因此,在本步骤中,需要根据用户标识确定待获取的与监控关键词相关联的网络页面的种类和来源。由此可见,获取到的网络页面是与用户标识和监控关键词均相关联的。并且,为了便于实施监控,需要进一步对获取到的网络页面进行解析,以得到目标网络内容。
其中,目标网络内容是指包含有效信息的网络内容。由于网络页面中包含广告、无关配图等干扰内容,因此,为了提升后续监控的准确性,需要针对解析得到的页面内容提取有效信息,以得到目标网络内容。
步骤S130:根据与用户标识相对应的用户词库,对目标网络内容进行分词处理,得到分词结果。
其中,预先针对不同的用户标识配置不同的用户词库,用户词库用于存储与用户标识相关联的高频词汇。由于不同用户所对应的用户词库各不相同,因此,需要根据与用户标识相对应的用户词库,对目标网络内容进行分词处理,得到分词结果。由于用户词库是与当前用户的业务需求相匹配的,因此,分词结果更加准确。
步骤S140:获取与用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及分词结果,对网络页面进行分类处理,得到网络页面的页面类型;若页面类型属于预设监控类型,则对网络页面进行监控处理。
其中,预先针对不同的用户配置不同的信息分类策略,以便根据获取到的信息分类策略以及分词结果,对网络页面进行分类处理,得到网络页面的页面类型。其中,信息分类策略可通过信息分类模型或正则匹配算法等各种方式实现。网络页面的页面类型可包括:异常类型、正常类型等。其中,异常类型是指:包含虚假信息或负面信息的类型。相应的,预设监控类型是指需要监控的页面类型,例如,预设监控类型可以为异常类型。由此可见,在该方式中,能够根据获取到的用户标识以及监控关键词;自动获取与用户标识和监控关键词均相关联的网络页面,并解析得到目标网络内容,并且,能够根据与用户标识相对应的用户词库,自动对目标网络内容进行分词处理,得到分词结果,最后,根据获取到的信息分类策略以及分词结果对网络页面进行分类处理,得到网络页面的页面类型,以实现针对指定类型的监控处理。由此可见,在该方式中,一方面,能够根据用户标识以及监控关键词自动获取网络页面并进行监控;另一方面,由于获取网络页面的过程中,是根据用户标识确定的对应于当前用户的页面,因此,获取到的网络页面与用户类型更加匹配;而且,用户词库以及信息分类策略也都是根据用户标识确定的,因而更加适配当前用户的业务种类,进而能够提升监控的精准性。
图2为本公开的又一实施例提供的一种网络信息的监控方法的流程图。参照图2,该方法包括:
步骤S200:响应于接收到的携带用户标识的监控配置请求,针对该用户标识所对应的用户配置监控信息。
其中,监控配置请求由用户触发,用于配置与监控相关的各项内容。其中,用户为具有信息监控需求的用户,例如,可以为不同企业的管理人员。相应的,监控配置请求中可包含多种配置信息,例如,监控配置请求中包含监控频率(也叫获取频率)、预警策略、用户业务属性特征等多项内容。相应的,在本步骤中,可基于监控配置请求实现监控信息的配置操作,以便为后续步骤提供基础。
其中,本步骤为一个可选的步骤,在其他实施例中,也可以省略本步骤。例如,在各个用户的监控频率相同、预警策略也相同的情况下,可省略本步骤,直接针对各个用户都使用默认的监控策略即可。
步骤S210:按照预先配置的与用户标识相对应的获取频率,定期从用户配置库中获取用户标识,以及与用户标识相关联的监控关键词。
其中,监控关键词是指与用户标识相关联的,用户标识与监控关键词关联存储至用户配置库中,用户配置库用于提供给用户进行用户标识以及监控关键词的配置。由此可见,为了便于针对多个用户进行统一监控,在本实施例中,设置有用户配置库,该用户配置库用于存储各个用户的用户标识及其关联的监控关键词。在一种实现方式中,用户可通过关键词配置请求配置自身感兴趣的关键词。相应的,本申请中的执行主体,如网络监控装置,在接收到用户触发的关键词配置请求的情况下,获取关键词配置请求中包含的用户标识以及监控关键词,并将获取到的用户标识以及监控关键词存储至用户配置库中。其中,关键词配置请求用于配置监控关键词。并且,考虑到不同用户所关注的信息内容的种类和来源各不相同。因此,在关键词配置请求中不仅包含监控关键词,还进一步包含用户标识。其中,用户标识用于唯一标识当前用户,该用户可以为企业用户。监控关键词用于表示待监控的网络信息的类型。例如,监控关键词可根据企业用户所关注的业务动态、行业新闻等内容设定。在一种可选的实现方式中,关键词配置请求也可以通过上述的监控配置请求替代,即:在监控配置请求中同时包含关键词信息,以便后续直接根据关键词信息进行监控。
在本步骤中,分别针对用户配置库中的各个用户标识,按照预先配置的与用户标识相对应的获取频率,定期从用户配置库中获取用户标识,以及与用户标识相关联的监控关键词。其中,预先配置的与用户标识相对应的获取频率根据上述监控配置请求中包含的监控频率确定。例如,获取频率可以与监控频率相同,或者,获取频率也可以略小于监控频率。步骤S220:获取与用户标识和监控关键词均相关联的网络页面,并对获取到的网络页面进行解析,得到目标网络内容。
其中,本步骤可通过以下实现方式中的至少一种实现:
在第一种实现方式中,调用第一获取模块,获取与用户标识相对应的列表页面,以及获取列表页面中包含的各个列表链接对应的链接页面,从各个列表链接对应的链接页面中提取与监控关键词相关联的网络页面。其中,第一获取模块包括:列表页获取脚本,列表页面包括:新闻页面等各类包含列表信息的页面。其中,第一获取模块可通过自定义的列表页获取脚本实现,具体用于获取包含列表信息的网络页面。其中,包含列表信息的网络页面主要包括各大网站的新闻页面,其特点在于:在列表页面中包含多个列表链接,每个列表链接用于链接至对应的二级页面或三级页面。针对该类列表页面,首先配置与列表页面相对应的种子URL,通过定期扫描种子URL对应的网页内容,获取与监控关键词相关联的网络页面。
在第二种实现方式中,调用第二获取模块,根据监控关键词以及与用户标识相对应的预设搜索引擎,获取与监控关键词相关联的网络页面。其中,第二获取模块包括:搜索脚本,用于将监控关键词输入预先配置的搜索引擎中进行搜索。其中,搜索引擎主要包括各类搜索网站,通过将用户配置的监控关键词输入搜索引擎进行搜索的方式能够获取到与监控关键词相关联的网络页面。
在第三种实现方式中,调用第三获取模块,获取与用户标识相对应的网站注册用户的用户页面,从用户页面中提取与监控关键词相关联的网络页面。其中,第三获取模块包括:用户页面获取脚本。其中,网站注册用户包括:微博用户等各类网站的注册用户,由于注册用户能够以自媒体方式发表网络信息,因此,通过网站注册用户的用户页面即可获取到与监控关键词相关联的网络页面。具体实施时,可以先配置一批高级用户,然后获取高级用户的关注用户和关注该高级用户的其他用户,从而以高级用户为中心,获取到大量的网络页面。其中,高级用户可以包括:发表内容的数量大于预设数量阈值的用户、关注用户量大于预设关注阈值的用户等。总之,通过对网站注册用户的用户页面进行监控,也能够获取到与监控关键词相关联的网络页面。
总之,在本公开中,预先针对各种类型的网络页面的页面特征,编写与各种类型的网络页面相对应的页面获取脚本,即上述的第一获取模块、第二获取模块以及第三获取模块,从而能够适配各类网站,实现网站数据的自动获取。
另外,各类页面获取脚本所访问的网络页面的范围可灵活配置,例如,可以根据各个用户标识所对应的用户业务属性特征,配置与各个用户标识相对应的网络页面获取范围。例如,若用户业务属性特征为手机类业务居多,则该用户标识所对应的网络页面获取范围主要包括手机类新闻页面;又如,若用户业务属性特征为平板类业务居多,则该用户标识所对应的网络页面获取范围主要包括平板类新闻页面……依此类推。总之,在本步骤中,根据用户标识获取与监控关键词相关联的网络页面,能够确保获取到的网络页面是与用户标识所对应的用户强相关的,有助于获取到用户关注度较高的页面。由此可见,由于不同类型的用户所关注的网络信息的种类和来源可能各不相同,因此,在本步骤中,需要根据用户标识确定待获取的与监控关键词相关联的网络页面的种类和来源。
另外,在根据用户标识获取与监控关键词相关联的网络页面时,可以按照预设的获取频率,定期获取与监控关键词相关联的网络页面;其中,获取频率根据预先接收到的包含用户标识的监控配置请求确定。例如,可根据获取频率,每隔两小时执行一次本步骤及其后续步骤,从而实现针对监控关键词的周期性监控。
步骤S230:对获取到的网络页面进行解析,得到目标网络内容。
为了便于实施监控,需要进一步对获取到的网络页面进行解析,以得到目标网络内容。其中,目标网络内容是指:包含有效信息的网络内容。由于网络页面中包含广告、无关配图等干扰内容,因此,为了提升后续监控的准确性,需要针对解析得到的页面内容提取有效信息,以得到目标网络内容。具体实施时,可通过下述方式实现:首先,对获取到的网络页面进行解析,得到网络页面中包含的多个节点;其中,每个节点包括字符串和/或标签。例如,节点包括:文档中的标签、属性、文本等各种内容,比如,节点包括:HTML的DIV标签、P标签等。然后,根据多个节点之间的关联关系,构建文档对象模型(document objectmodel,DOM)。接下来,计算文档对象模型中包含的每个节点的总字符数和带链接的字符数;并且,计算文档对象模型中包含的每个节点的标签总数以及带链接的标签数。最后,根据总字符数、带链接的字符数、标签总数以及带链接的标签数,计算每个节点的文本密度,将文本密度大于预设阈值的节点所对应的内容提取为目标网络内容。
在一种实现方式中,可以基于文本及符号密度提取网页的正文从而判断该网页是否是新闻网页,如果是新闻网页则提取标题、作者、发布日期、内容、图片列表等相关信息。其中,针对网络页面的处理逻辑如下:首先,针对网络页面的解析结果进行预处理,得到预处理后的解析结果。其中,预处理用于滤除无关噪音等信息,例如,在预处理过程中,对网页html源码编码,去除JavaScript脚本、CSS样式、Iframe等格式化信息,从而得到预处理后的解析结果。然后,针对预处理后的解析结果构建DOM树。例如,对预处理后的html源码构建DOM树,并计算每个节点的字符串总数和标签比率。最后,根据计算结果提取目标网络内容。例如,根据计算结果找出网页正文,根据网页正文的长短、在网页中的位置以及新闻中的关键词来判断该网页正文的内容是否是新闻。若是,则根据网页正文提取新闻标题、作者、发布日期、内容、图片等信息。
其中,基于DOM树的核心算法如下:
上述公式中的各个参量的物理含义如下:
Ti:节点i的总字符数,在字符主要为字符串的情况下,也可以叫做字符串总字数。
LTi:节点i的带链接的字符数。
TGi:节点i的标签总数。
LTGi:节点i带链接的标签数。
其中,TDi用于衡量一个网页的每个节点的文本密度。如果一个节点的纯文本字数比带链接的文本字数明显多出很多的话,根据公式可知该节点的文本密度很大,从而判断该节点是正文的可能性较大。相应的,将属于正文的各个节点提取为目标网络内容。通过上述方式,能够自动将正文内容提取为目标网络内容,从而剔除广告、垃圾信息等无关内容的干扰,既能够降低后续处理过程中的数据量,又能够提升后续数据处理的效率。
步骤S240:根据与用户标识相对应的用户词库,对目标网络内容进行分词处理,得到分词结果。
其中,预先针对不同的用户标识配置不同的用户词库,用户词库用于存储与用户标识相关联的高频词汇。由于不同用户所对应的用户词库各不相同,因此,需要根据与用户标识相对应的用户词库,对目标网络内容进行分词处理,得到分词结果。由于用户词库是与当前用户的业务需求相匹配的,因此,分词结果更加准确。例如,可以在接收到监控配置请求之后,根据监控配置请求中包含的用户业务属性特征,配置与用户标识相对应的用户词库。由于用户词库基于用户业务属性特征配置,因此,用户词库中的词汇与用户业务属性高度匹配,进而能够确保分词处理的准确性。
在一种实现方式中,通过分词器,调用与用户标识相对应的用户词库,对目标网络内容进行分词处理。其中,分词器可以为IK分词器等各类分词器。其中,预先在分词器中配置多个分别对应于不同用户标识的用户词库;其中,每个用户标识所对应的用户词库根据该用户标识的业务属性信息配置。例如,基于自定义的IK分词器对网页内容进行分词处理,根据分词结果提取关键词,对网页间相同的关键词进行去重,并根据网页间关键词的重复度确定相应关键词的热度值,以便根据关键词和热度值对网络页面进行分类。其中,IK分词器是一个中文分词器,支持自定义词典,因此,在本实施例中,分别针对不同的用户标识构建不同的用户词典(即用户词库),从而便于根据各个用户的个性化特征进行准确分词。
步骤S250:获取与用户标识相对应的信息分类策略,根据获取到的信息分类策略以及分词结果,对网络页面进行分类处理,得到网络页面的页面类型,若页面类型属于预设监控类型,则对网络页面进行监控处理。
其中,预先针对不同的用户配置不同的信息分类策略,以便根据获取到的信息分类策略以及分词结果,对网络页面进行分类处理,得到网络页面的页面类型。其中,信息分类策略可通过信息分类模型或正则匹配算法等各种方式实现。网络页面的页面类型可包括:异常类型、正常类型等。其中,异常类型是指:包含虚假信息或负面信息的类型。相应的,预设监控类型是指需要监控的页面类型,例如,预设监控类型可以为异常类型。
在一种实现方式中,若信息分类策略指示依据信息分类模型进行分类,则将分词结果输入与用户标识相对应的信息分类模型,并根据信息分类模型的输出结果对网络页面进行分类处理。其中,可以分别针对不同的用户标识训练不同的信息分类模型。例如,针对一个用户标识,获取该用户标识所对应的大量业务数据作为样本数据,根据已标注的样本数据训练信息分类模型。通过分别针对不同的用户标识训练不同的信息分类模型的方式,能够确保当前使用的信息分类模型与当前用户的业务特征相匹配,从而确保分类结果的准确性。
在又一种实现方式中,若信息分类策略指示依据匹配规则进行分类,则根据与用户标识相对应的正则匹配规则和/或分类词匹配规则,对分词结果进行匹配,根据匹配结果对网络页面进行分类处理。其中,正则匹配规则用于通过正则表达式匹配的方式,确定网络页面的分类结果。例如,预先配置与各种分类结果相对应的正则表达式,进而根据匹配结果确定分类结果。分类词匹配规则与正则匹配规则类似,可以预先配置多种分类词,从而根据分类词确定分类结果。其中,无论是正则匹配规则,还是分类词匹配规则,都是针对不同的用户标识设置的,即:正则匹配规则和/或分类词匹配规则与用户标识之间具有一定的对应关系。因此,不同用户标识所对应的正则匹配规则和/或分类词匹配规则各不相同。通过该方式,能够确保分类结果的准确性。由于不同用户关注的特定词汇不同,因此,针对不同的用户标识分别设置不同的正则匹配规则和/或分类词匹配规则能够灵活适应当前用户的特点。
在一种可选的实现方式中,监控关键词包括:主题关键词以及行为关键词。其中,主题关键词用于描述待监控的事件的主题,若主题关键词为多个,则多个主题关键词之间可以是“或”的关系。行为关键词用于描述待监控的事件中包含的动作、行为等特征,多个行为关键词之间也可以是“或”的关系。另外,各个主题关键词和各个行为关键词之间通常是“且”的关系。例如,在一组监控关键词中包含如下两个主题关键词:XX公司,XX有限责任公司,并且,包含如下两个行为关键词:科技、创新。相应的,需要监测新闻中同时含有“XX公司”或“XX有限责任公司”以及“科技”或“创新”的新闻。
另外,监控关键词中除包含主题关键词以及行为关键词之外,还可以进一步包括噪音关键词。其中,噪音关键词用于以排除方式限定不需要监测的噪音内容,例如,在获取到与监控关键词相关联的网络页面之后,进一步判断该网络页面中是否包含噪音关键词,若是,则滤除该网络页面。另外,用户还可以预先配置待监测的网站列表以及不需要监测的网站列表,以便根据用户的要求进行针对性监测。
其中,网络页面的页面类型包括:正向类型、负向类型、以及中性类型。例如,以网络信息为舆论信息为例,正向类型的舆论信息为积极的、正面的舆论信息;负向类型的舆论信息为消极的、负面的舆论信息。其他类型的舆论信息则为中性类型。相应的,预设监控类型可以包括:正向类型和/或负向类型。并且,若页面类型属于预设监控类型中的正向类型,则将网络页面推送至与用户标识相对应的用户终端;若页面类型属于预设监控类型中的负向类型,则生成关于网络页面的预警信息,并将预警信息推送至与用户标识相对应的用户终端。
为了便于理解,下面以一个具体示例为例,详细介绍本申请中的技术细节:
随着信息时代的到来,舆论的力量不断地增强,尤其在互联网的帮助下,社会舆论已经成为了一股无法被人忽视的力量。在这种大环境下,一个功能强大的、完善的系统的需求性就表露无遗,一款好的舆情系统可以帮助用户在第一时间掌握舆情动态,不用被舆情牵着鼻子走,而是始终保有主动权。目前,大部分企业的舆情监测和管理工作主要依靠人工来完成,人工监测舆情面临着舆情信息收集不全、不及时、发现不准确、舆情信息利用不便利等诸多问题。因此,完全靠人工进行舆情信息的收集和上报,不仅消耗大量的时间和精力,而且效果并不理想。在本示例中,可通过配置化方式自动采集和识别舆情信息。
在本示例中,基于舆情监控系统实现上述监控方法。其中,该舆情监控系统30的结构示意图如图3所示,具体包括:数据获取模块31、舆情识别模块32、舆情预警模块33、舆情报告模块34以及舆情推送模块35。图3所示的舆情监控系统主要用于监测舆情类型的网络信息。在该示例中,基于分布式云计算方式对网络数据进行自动化采集,对采集的网络数据进行预处理后,即可自动判断正负面舆情信息,从而为用户提供正负面舆情信息,进而为用户提供直观的决策参考信息。其中,舆情监控系统需要综合运用搜索引擎技术、文本处理技术、知识管理方法、自然语言处理、手机短信平台,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪的需求。
其中,数据获取模块31用于抓取大量的网页进行监督去重复去噪处理。舆情识别模块32将数据获取模块31抓取到的网页识别分类后取出新闻的正文标题识别新闻正负面,并将新闻存库。舆情预警模块33定时统计负面舆情情况通过舆情推送模块35推送给用户。舆情报告模块34能够根据舆情数据按照每周、每月、每季度、或每年的频率生成舆情周报、舆情月报、舆情季报、或舆情年报。
由于很多新闻网站的前端布局、异步加载方式各不相同,因此,数据获取模块31通过配置化多种数据获取引擎(也叫数据获取脚本)适应各种新闻网站和贴吧。相应的,根据用户配置的关键词去微博等社交平台搜索获取相应的舆情数据;实时监视各个数据获取引擎的状态(待获取、正在获取、已完成、异常),根据各个数据获取引擎的状态调度每个数据获取引擎,以实现对互联网中各预设舆情网站内容的抓取;数据获取引擎根据配置条件对各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址将网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;对分类成功的网站地址对应网站的网页内容进行抓取;为抓取到的对应网站的网页内容建立舆情数据全文索引信息,存入数据库。
舆情识别模块32基于自定义的IK分词器对网页内容分词,提取关键词,对网页间相同关键词进行去重,并根据网页间关键词的重复度提供相应关键词热度值;根据关键词和热度值识别新闻的正负面,并结合用户关注舆情的关联度,最终将和用户相关的舆情信息推送给相应用户。
舆情预警模块33根据舆情识别模块32识别出的舆情,查询统计负面舆情并进行负面舆情的展示,根据用户的配置的负面舆情推送频率和实际获取到的负面舆情,通知舆情推送模块35将负面信息推送给用户。
舆情报告模块34根据用户配置的主题统计出用户相关的舆情信息,根据用户的配置和word模板生成相应格式的周报、月报、季报和年报。
舆情推送模块35根据用户配置的邮箱、电话、微信等联系信息和用户配置的通知方式和频率,将用户需要的舆情信息推送到用户邮箱、电话或者微信。
综上可知,通过本实施例中的方式,一方面,能够根据关键词配置请求自动获取网络页面并进行监控;另一方面,由于获取网络页面的过程中,是根据用户标识确定的对应于当前用户的页面,因此,获取到的网络页面与用户类型更加匹配;而且,用户词库以及信息分类策略也都是根据用户标识确定的,因而更加适配当前用户的业务种类,进而能够提升监控的精准性。另外,该方式能够分别针对不同类型的网络页面配置不同的获取模块,以使获取模块能够灵活适配各种类型的网页。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了网络信息的监控装置、电子设备、计算机可读存储介质,上述均可用来实现本公开提供的任一种网络信息的监控方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图4为本公开实施例提供的一种网络信息的监控装置的框图。
参照图4,本公开实施例提供了一种网络信息的监控装置,该网络信息的监控装置包括:
获取模块41,适于获取用户标识以及监控关键词;
解析模块42,适于根据所述用户标识获取与所述监控关键词相关联的网络页面,对获取到的网络页面进行解析,得到目标网络内容;
分词模块43,适于根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;
监控模块44,适于获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;若页面类型属于预设监控类型,则对网络页面进行监控处理。
可选的,所述监控关键词是指与所述用户标识相关联的,所述用户标识与所述监控关键词关联存储至用户配置库中,所述用户配置库用于提供给用户进行用户标识以及监控关键词的配置;
所述获取模块具体用于:按照预先配置的与所述用户标识相对应的获取频率,定期从所述用户配置库中获取所述用户标识,以及与所述用户标识相关联的监控关键词。
可选的,所述获取与所述用户标识和所述监控关键词均相关联的网络页面包括以下方式中的至少一种:
获取与所述用户标识相对应的列表页面,以及获取所述列表页面中包含的各个列表链接对应的链接页面,从所述各个列表链接对应的链接页面中提取与所述监控关键词相关联的网络页面;
根据所述监控关键词以及与所述用户标识相对应的预设搜索引擎,获取与所述监控关键词相关联的网络页面;
获取与所述用户标识相对应的网站注册用户的用户页面,从所述用户页面中提取与所述监控关键词相关联的网络页面。
可选的,所述解析模块具体用于:
对获取到的网络页面进行解析,得到所述网络页面中包含的多个节点;其中,每个节点包括字符串和/或标签;
根据所述多个节点之间的关联关系,构建文档对象模型;
计算所述文档对象模型中包含的每个节点的总字符数和带链接的字符数;并且,计算所述文档对象模型中包含的每个节点的标签总数以及带链接的标签数量;
根据所述总字符数、带链接的字符数、标签总数以及带链接的标签数量,计算每个节点的文本密度,将文本密度大于预设阈值的节点所对应的内容提取为所述目标网络内容。
可选的,所述分词模块具体用于:
通过分词器,调用与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理;
其中,预先在所述分词器中配置多个分别对应于不同用户标识的用户词库;其中,每个用户标识所对应的用户词库根据该用户标识的业务属性信息配置。
可选的,所述分词模块具体用于:
若所述信息分类策略指示依据信息分类模型进行分类,则将所述分词结果输入与所述用户标识相对应的信息分类模型,并根据所述信息分类模型的输出结果对所述网络页面进行分类处理;
若所述信息分类策略指示依据匹配规则进行分类,则根据与所述用户标识相对应的正则匹配规则和/或分类词匹配规则,对所述分词结果进行匹配,并根据匹配结果对所述网络页面进行分类处理。
可选的,所述监控关键词包括:主题关键词以及行为关键词;所述网络页面的页面类型包括:正向类型、负向类型、以及中性类型中任意一种,且所述预设监控类型包括:正向类型和/或负向类型;
监控模块具体用于:若所述页面类型属于预设监控类型中的正向类型,则将所述网络页面推送至与所述用户标识相对应的用户终端;若所述页面类型属于预设监控类型中的负向类型,则生成关于所述网络页面的预警信息,并将所述预警信息推送至与所述用户标识相对应的用户终端。
图5为本公开实施例提供的一种电子设备的框图。
参照图5,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器501;至少一个存储器502,以及一个或多个I/O接口503,连接在处理器501与存储器502之间;其中,存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器501执行,以使至少一个处理器501能够执行上述的网络信息的监控方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的网络信息的监控方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述网络信息的监控方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程网络信息的监控装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程网络信息的监控装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程网络信息的监控装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程网络信息的监控装置、或其它设备上,使得在计算机、其它可编程网络信息的监控装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程网络信息的监控装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种网络信息的监控方法,其特征在于,包括:
获取用户标识以及监控关键词;
获取与所述用户标识和所述监控关键词均相关联的网络页面,并对获取到的网络页面进行解析,得到目标网络内容;
根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;
获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;
若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理。
2.根据权利要求1所述的方法,其特征在于,所述监控关键词是指与所述用户标识相关联的,所述用户标识与所述监控关键词关联存储至用户配置库中,所述用户配置库用于提供给用户进行用户标识以及监控关键词的配置;
所述获取用户标识以及监控关键词,包括:
按照预先配置的与所述用户标识相对应的获取频率,定期从所述用户配置库中获取所述用户标识,以及与所述用户标识相关联的监控关键词。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述用户标识和所述监控关键词均相关联的网络页面包括以下方式中的至少一种:
获取与所述用户标识相对应的列表页面,以及获取所述列表页面中包含的各个列表链接对应的链接页面,从所述各个列表链接对应的链接页面中提取与所述监控关键词相关联的网络页面;
根据所述监控关键词以及与所述用户标识相对应的预设搜索引擎,获取与所述监控关键词相关联的网络页面;
获取与所述用户标识相对应的网站注册用户的用户页面,从所述用户页面中提取与所述监控关键词相关联的网络页面。
4.根据权利要求1-3任一所述的方法,其特征在于,所述对获取到的网络页面进行解析,得到目标网络内容,包括:
对获取到的网络页面进行解析,得到所述网络页面中包含的多个节点;其中,每个节点包括字符串和/或标签;
根据所述多个节点之间的关联关系,构建文档对象模型;
计算所述文档对象模型中包含的每个节点的总字符数和带链接的字符数;并且,计算所述文档对象模型中包含的每个节点的标签总数以及带链接的标签数;
根据每个节点的总字符数、所述每个节点中带链接的字符数、每个节点的标签总数以及带链接的标签数,计算每个节点的文本密度,并将文本密度大于预设阈值的节点所对应的内容提取为所述目标网络内容。
5.根据权利要求1-3任一所述的方法,其特征在于,所述根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,包括:
通过分词器,调用与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理;
其中,预先在所述分词器中配置多个分别对应于不同用户标识的用户词库;其中,每个用户标识所对应的用户词库根据该用户标识的业务属性信息配置。
6.根据权利要求1-3任一所述的方法,其特征在于,所述根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,包括:
若所述信息分类策略指示依据信息分类模型进行分类,则将所述分词结果输入与所述用户标识相对应的信息分类模型,并根据所述信息分类模型的输出结果对所述网络页面进行分类处理;
若所述信息分类策略指示依据匹配规则进行分类,则根据与所述用户标识相对应的正则匹配规则和/或分类词匹配规则,对所述分词结果进行匹配,并根据匹配结果对所述网络页面进行分类处理。
7.根据权利要求1-3任一所述的方法,其特征在于,所述监控关键词包括:主题关键词以及行为关键词;所述网络页面的页面类型包括:正向类型、负向类型、以及中性类型中任意一种,且所述预设监控类型包括:正向类型和/或负向类型;
若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理,包括:
若所述页面类型属于预设监控类型中的正向类型,则将所述网络页面推送至与所述用户标识相对应的用户终端;
若所述页面类型属于预设监控类型中的负向类型,则生成关于所述网络页面的预警信息,并将所述预警信息推送至与所述用户标识相对应的用户终端。
8.一种网络信息的监控装置,其特征在于,包括:
获取模块,适于获取用户标识以及监控关键词;
解析模块,适于根据所述用户标识获取与所述监控关键词相关联的网络页面,对获取到的网络页面进行解析,得到目标网络内容;
分词模块,适于根据与所述用户标识相对应的用户词库,对所述目标网络内容进行分词处理,得到分词结果;
监控模块,适于获取与所述用户标识相对应的信息分类策略,并根据获取到的信息分类策略以及所述分词结果,对所述网络页面进行分类处理,得到所述网络页面的页面类型;若所述页面类型属于预设监控类型,则对所述网络页面进行监控处理。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的网络信息的监控方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的网络信息的监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210973289.XA CN117669558A (zh) | 2022-08-15 | 2022-08-15 | 网络信息的监控方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210973289.XA CN117669558A (zh) | 2022-08-15 | 2022-08-15 | 网络信息的监控方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117669558A true CN117669558A (zh) | 2024-03-08 |
Family
ID=90068426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210973289.XA Pending CN117669558A (zh) | 2022-08-15 | 2022-08-15 | 网络信息的监控方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117669558A (zh) |
-
2022
- 2022-08-15 CN CN202210973289.XA patent/CN117669558A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alam et al. | Processing social media images by combining human and machine computing during crises | |
CN108874777B (zh) | 一种文本反垃圾的方法及装置 | |
Chen et al. | A survey on the use of topic models when mining software repositories | |
US8266148B2 (en) | Method and system for business intelligence analytics on unstructured data | |
US9779388B1 (en) | Disambiguating organization names | |
US20230333919A1 (en) | Flexible and scalable artificial intelligence and analytics platform with advanced content analytics and data ingestion | |
US8630972B2 (en) | Providing context for web articles | |
US11144606B2 (en) | Utilizing online content to suggest item attribute importance | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US11803600B2 (en) | Systems and methods for intelligent content filtering and persistence | |
CA2865186A1 (en) | Method and system relating to sentiment analysis of electronic content | |
US20180025012A1 (en) | Web page classification based on noise removal | |
AU2016228246B2 (en) | System and method for concept-based search summaries | |
US11263062B2 (en) | API mashup exploration and recommendation | |
Chen et al. | An open automation system for predatory journal detection | |
US20190163828A1 (en) | Method and apparatus for outputting information | |
US9779363B1 (en) | Disambiguating personal names | |
US11886477B2 (en) | System and method for quote-based search summaries | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
US20210109945A1 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
Pandya et al. | Mated: metadata-assisted twitter event detection system | |
Kotenko et al. | The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
CN117669558A (zh) | 网络信息的监控方法、装置、电子设备及存储介质 | |
JPWO2018056299A1 (ja) | 情報収集システム、情報収集方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |