CN107766234A - 一种基于移动设备的网页健康度的测评方法、装置及系统 - Google Patents

一种基于移动设备的网页健康度的测评方法、装置及系统 Download PDF

Info

Publication number
CN107766234A
CN107766234A CN201710773287.5A CN201710773287A CN107766234A CN 107766234 A CN107766234 A CN 107766234A CN 201710773287 A CN201710773287 A CN 201710773287A CN 107766234 A CN107766234 A CN 107766234A
Authority
CN
China
Prior art keywords
data
webpage
health degree
module
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710773287.5A
Other languages
English (en)
Inventor
黄晋
蔡致暖
何金城
莫根生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Surfilter Network Technology Co., Ltd.
Original Assignee
Guangzhou Number Waugh Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Number Waugh Mdt Infotech Ltd filed Critical Guangzhou Number Waugh Mdt Infotech Ltd
Priority to CN201710773287.5A priority Critical patent/CN107766234A/zh
Publication of CN107766234A publication Critical patent/CN107766234A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于移动设备的网页健康度的测评方法,包括以下步骤:数据获取步骤:逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据;数据处理步骤:根据目标数据的类型分别对目标数据进行归类处理并得出归类结果,从而根据目标数据的归类结果得出网页健康度的分析结果。本发明还公开了一种电子设备、存储介质和基于移动设备的网页健康度的测评系统。本发明通过配置对应的模板,根据模板对网页中的数据进行抽取,并根据所抽取的数据的类型不同分别进行分析、归类处理,从而得出网页的健康度评价结果,为建立良好的网络环境提供了基础。

Description

一种基于移动设备的网页健康度的测评方法、装置及系统
技术领域
本发明涉及一种信息技术领域,尤其涉及一种对手机应用内容健康度的测评方法、电子设备、存储介质及系统。
背景技术
目前,随着当今移动互联网技术的迅速更新与发展,通过互联网、手机应用(比如APP等)已经成为人们获取和传递消息的重要载体。如今网民可以通过各种移动设备访问各种网页、论坛、博客等网上交流平台,并自由地就各种话题发表自己的见解。但是,不可忽视的是网络舆情事件同时也对网民态度、社会稳定产生了极为重大的影响,其发生范围之广、传播速度之快,时时令人感到震惊。网络舆情事件已经成为当前网络信息技术研究热点之一,尤其是利用信息技术对网络舆情进行挖掘和分析已经成为网络舆情事件研究的重中之重。虽然当前已设立的部分舆情监测平台已经具备了舆情信息的检索、分类、聚类、过滤、摘要等基本信息挖掘动能。而移动互联网在近几年比较流行,但是却缺少一套完善的针对移动设备上的应用的内容监测系统。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于移动设备的网页健康度的测评方法,其能够解决现有技术中缺少对于移动设备的应用APP的网页内容的健康度测评的问题。
本发明的目的之二在于提供一种电子设备,其能够解决现有技术中缺少对于移动设备的应用APP的网页内容的健康度测评的问题。
本发明的目的之三在于提供一种计算机可读存储介质,其能够解决现有技术中缺少对于移动设备的应用APP的网页内容的健康度测评的问题。
本发明的目的之四在于提供一种基于移动设备的网页健康度的测评系统,其能够解决现有技术中缺少对于移动设备的应用APP的网页内容的健康度测评的问题。
本发明的目的之一采用如下技术方案实现:
一种基于移动设备的网页健康度的测评方法,包括以下步骤:
数据获取步骤:逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据;
数据处理步骤:根据目标数据的类型分别对目标数据进行归类处理并得出归类结果,从而根据目标数据的归类结果得出网页健康度的分析结果。
进一步地,目标数据的类型包括文本数据类型、音频数据类型、图像数据类型和视频数据类型。
进一步地,所述采集任务包括入口URL、任务描述、多个抽取模板和其他参数配置;数据获取步骤具体包括:根据采集任务获取入口URL,并根据入口URL进入对应网页,然后逐个根据每个抽取模板对对应的网页进行数据抽取,从而获取对应的目标数据。
进一步地,所述抽取模板至少包括模板描述、URL正则表达式、页面下载器以及抽取字段列表;其中,模板描述是对对抽取模板的描述;URL正则表达式用于匹配需要进行数据抽取的网页的URL;页面下载器用于获取网页信息;抽取字段列表包括从网页中抽取的字段以及抽取对应字段的方法。
进一步地,所述数据获取步骤与数据处理步骤之间还包括数据存储步骤:通过分布式存储系统对目标数据进行对应存储。
本发明的目的之二采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。
本发明的目的之三采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。
本发明的目的之四采用如下技术方案实现:
一种基于移动设备的网页健康度的测评系统,包括:爬虫配置模块、任务调度模块、数据采集模块和数据处理模块,爬虫配置模块用于根据网页配置对应的采集任务和抽取模板;所述任务调用模块用于对采集任务进行管理和调度;数据采集模块用于根据采集任务采集对应的目标数据并发送给数据处理模块,从而使得数据处理模块根据目标数据的类型分别对目标数据进行归类处理,并最终得出网页健康度的分析结果。
进一步地,还包括数据存储模块,数据存储模块用于将数据采集模块所采集的目标数据进行存储。
进一步地,还包括程序日志模块,程序日志模块用于记录系统中执行过程的状态、操作以及各种报错信息。。
相比现有技术,本发明的有益效果在于:
本发明通过配置对应的网页模板和采集任务,然后针对网页中的不同数据进行采集并进行归类处理,从而得出网页中数据内容的健康度的测评结果,实现了对于网页站点中数据内容的分析、监测等,为建立良好的网络环境提供了基础。
附图说明
图1为本发明提供的基于移动设备的网页健康度的测评系统模块图;
图2为本发明提供的基于移动设备的网页健康度的测评方法流程图;
图3为本发明提供的视频数据的处理过程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例
本发明通过对移动设备中各个网页中的数据进行采集、处理、存储、分析、归类等从而能够对网页中的数据进行监测分析、评估等,达到对移动设备上网页健康度的监测分析。比如监测分析某一应用APP的健康度等。
如图1和2所示,一种基于移动设备的网页健康度的测评系统,包括任务调度模块、爬虫配置模块、数据采集模块、数据存储模块、数据处理模块以及程序日志模块。
系统对数据采集之前,首先通过爬虫配置模块配置对应的网页模板,然后根据配置的网页模板对目标数据进行采集。
在配置网页模板时,需要配置目标站点、采集任务和抽取模板,其中目标站点比如腾讯、微博、新浪等门户网站,也即是要采集数据的目标网址,对于一个网站中可包括多个网页、链接等。而采集任务是根据采集的数据不同或其他预设的规则进行划分的。本发明中的采集任务有多个,比如针对娱乐数据的、针对国内新闻数据、针对文本数据、针对视频数据等,可根据不同的需求或规则,将建立多个采集任务。
另外,每个采集任务均包含一个入口URL、任务描述、多个抽取模板和其他参数配置。入口URL表示进入目标站点的入口网址,任务描述用于对采集任务的简单描述,参数配置可能包括一些系统参数,比如创建时间等一些系统数据。而抽取模板至少包含模板描述、URL正则表达式、页面下载器、抽取字段列表四个部分。模板描述是对抽取模板的简单描述,使得描述该抽取模板的作用;URL正则表达式负责匹配指定URL的网页,只有网页的URL与该抽取模板的URL正则表达式匹配时,该网页才能被该抽取模板处理;页面下载器用于负责获取网页信息,比如获取网页中固定的数据包、信息等;抽取字段列表定义了一组要从网页中抽取出来的字段以及抽取该字段的方法。
当模板建立好后,通过任务调度模块逐个调用每个采集任务。任务调度模块用于协调管理采集任务执行的先后顺序、管理每个采集任务的生命周期等。比如当一个采集任务执行完成后,将采集任务从系统中删除等操作。
数据采集模块用于根据每个采集任务采集对应的数据并将其发送给数据存储模块。比如,数据采集模块通过采集任务获取入口URL,然后进入目标站点,并根据每个抽取模板的URL正则表达式匹配到对应的网页,在根据抽取字段以及页面下载器来抽取到对应网页中的数据。
另外,对于一个抽取模板可能被多个采集任务所引用,一个目标站点可以包含多个采集任务。对于一个具体的采集任务中,一个网页可能被采集任务中多个抽取模板所处理。比如同一个网页中可能涉及到视频、音频、文本、新闻、娱乐等数据,这样在抽取时,就有可能被多个采集任务进行处理,也可以被同一个采集任务中的多个抽取模板所处理。
数据存储模块用于对采集的数据对应存储。另外,对于数据采集模块所采集到的数据,首先经过数据存储模块进行存储,这样可避免因为采集到的数据没有及时地被数据处理模块进行处理而丢失。由于采集的互联网中的数据,其数据量很多、很大,因此,本发明在对数据进行存储时,采用分布式存储,可以提高存储效率。比如采用Kafka,其是一种分布式存储系统,基于发布/订阅的消息系统,由Apache维护。该存储系统具有以下优势:a、访问性能好、速度快,其是以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能;b、高吞吐率,其即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输;c、支持Kafka Server间的消息分区以及分布式消费,同时保证每个partition内的消息顺序传输;d、还同时支持离线数据处理和实时数据处理;e、还可实现业务分离等。
数据处理模块用于对采集到的数据根据数据类型的不同分别进行对应处理、分析、归类以及评估等处理,从而根据处理结果分析得出网页内容的健康度分析结果。程序日志模块用于记录系统内执行过程的状态、重要操作和各种报错信息等。
其中,数据类型包括文本数据类型、图像数据类型、音频数据类型和视频数据类型。
对于文本数据的处理本发明采用基于关键词以及命中规则的文本分类模型进行处理、分析以及分类的,其具体处理过程如下:
A1、对所采集的文本数据进行预处理。预处理包括分析处理、去除停用词、翻译等操作。另外,本发明中的文本数据,不仅仅限于中文,其还可以涉及到其他比较常见的语言:英文、日文等。
A2、逐个利用滑动窗口对预处理后的文本数据通过关键词匹配原则对其进行匹配并得出每个关键词的命中结果。
A3、根据每个关键词的命中结果得出文本数据的类别。
另外,本发明中的关键词匹配并不是简单地相同就认为命中,在判断命中时还需要符合预先设置的匹配规则。系统预先设置了文本数据的所属类别表,其中,类别比如性感、涉黄、暴力等,一个类别包含类别名称、关键词集合、匹配规则等。而且,在关键词匹配过程中设置滑动窗口,滑动窗口包括滑动窗口大小和滑动位移,其中滑动位移是以词为单位的滑动位移。滑动窗口在文本信息中滑动,每滑动逐个,窗口内的全部词语需要进行逐个类别匹配,符合匹配规则认为该文本数据属于该种类别,直到窗口遍历整个文本,从而得出一个文本所属的多个可能的类别。
其中,这里的滑动窗口指的是每一次进行匹配的词数量,比如预处理得到的文本数据为:text=<word1,word2,word3,word4,word5,word6......wordn>,设定滑动窗口大小为3,滑动位移为2,则一开始对关键词进行匹配时,首先选择窗口内的word1,word2,word3三个关键词与系统中关键词表中的全部类别进行匹配,并判断每个关键词的命中情况是否符合匹配规则,然后每次滑动两个单词的量,来对文本数据中每个关键词进行匹配,并判断其命中情况,最终根据文本数据中所有关键词的命中情况来判断出文本数据所属的类别。另外,对于滑动大小以及滑动位移具体设置为多少,可根据具体的需求进行设置。
对于音频数据的处理,是基于深度学习算法的音频处理技术首先对其进行识别处理,将其转换为对应的文本数据,最后在通过对文本数据的归类方法来判断音频数据所属的类别。
对于图像数据的处理,其是通过基于深度学习算法的图像识别技术来判断图像数据所属的类别,其处理过程如下:
在识别时,通过将待识别的图像与系统中的图像识别模型中的图像进行匹配,从而得到待识别图像的所属类别。而图像识别模型是通过预先收集大量的相关图片作为训练集,通过卷积神经网络算法建立的。
对视频数据的处理,首先对视频数据文件进行抽帧处理,将视频数据文件分解成多个图片的集合,并对集合中的图片去重处理,然后通过系统中建立的图像识别模型对每个图片进行识别,从而判断出每个图片的所属类别,最终根据所有图片的所属类别得出视频数据的所属类别,如图3所示为视频数据的归类处理示意图。
另外,对于数据来说,其类型不仅仅只包括本实施例中所提到的文本数据类型、音频数据类型、图像数据类型和视频数据类型,还可以是其他的数据类型,而这些数据类型均可以通过间接或直接的方式转换为本实施例中所提到的数据类型,然后进行相应的处理,其具体可参照实际的应用,这里不再一一举例介绍。
本发明提供了一种基于移动设备的网页健康度的测评方法,包括以下步骤:
S1、逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据;
S2、根据目标数据的类型分别对目标数据进行归类处理并得出对应的归类结果,从而根据目标数据的归类结果得出网页健康度的分析结果。
其中S1和S2之间还包括S3:将采集的目标数据通过分布式存储系统进行对应存储。这样可使得采集的目标数据首先进行缓存,而不至于出现当采集的目标数据较多而来不及处理,使得数据丢失的现象。
本发明还提供了一种电子设备,其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序,所述处理器执行所述程序时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。
本发明应用于移动设备上网页的健康度分析,也可以应用于移动设备上的应用APP的健康度的分析。比如通过对应用APP的使用数据测评,可以得出该应用APP的健康度,建议用户是否使用等问题。比如该应用APP的使用是否健康、涉及到哪些内容等。另外,还可以根据该测评方法对大多数的网站、APP等进行健康度的测评,从而实现对网络环境的监管,为提供良好的网络环境提供了基础。当然,本发明也可以应用于PC端的各个网页或网页站点的数据内容的健康度的监测分析。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种基于移动设备的网页健康度的测评方法,其特征在于包括以下步骤:
数据获取步骤:逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据;
数据处理步骤:根据目标数据的类型分别对目标数据进行归类处理并得出归类结果,从而根据目标数据的归类结果得出网页健康度的分析结果。
2.如权利要求1所述的方法,其特征在于:目标数据的类型包括文本数据类型、音频数据类型、图像数据类型和视频数据类型。
3.如权利要求1所述的方法,其特征在于:所述采集任务包括入口URL、任务描述、多个抽取模板和其他参数配置;数据获取步骤具体包括:根据采集任务获取入口URL,并根据入口URL进入对应网页,然后逐个根据每个抽取模板对对应的网页进行数据抽取,从而获取对应的目标数据。
4.如权利要求3所述的方法,其特征在于:所述抽取模板至少包括模板描述、URL正则表达式、页面下载器以及抽取字段列表;其中,模板描述是对对抽取模板的描述;URL正则表达式用于匹配需要进行数据抽取的网页的URL;页面下载器用于获取网页信息;抽取字段列表包括从网页中抽取的字段以及抽取对应字段的方法。
5.如权利要求1所述的方法,其特征在于:所述数据获取步骤与数据处理步骤之间还包括数据存储步骤:通过分布式存储系统对目标数据进行对应存储。
6.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于移动设备的网页健康度的测评方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于移动设备的网页健康度的测评方法的步骤。
8.一种基于移动设备的网页健康度的测评系统,其特征在于包括:爬虫配置模块、任务调度模块、数据采集模块和数据处理模块,爬虫配置模块用于根据网页配置对应的采集任务和抽取模板;所述任务调用模块用于对采集任务进行管理和调度;数据采集模块用于根据采集任务采集对应的目标数据并发送给数据处理模块,从而使得数据处理模块根据目标数据的类型分别对目标数据进行归类处理,并最终得出网页健康度的分析结果。
9.如权利要求8所述的系统,其特征在于:还包括数据存储模块,数据存储模块用于将数据采集模块所采集的目标数据进行存储。
10.如权利要求8-9中任一项所述的系统,其特征在于:还包括程序日志模块,程序日志模块用于记录系统中执行过程的状态、操作以及各种报错信息。
CN201710773287.5A 2017-08-31 2017-08-31 一种基于移动设备的网页健康度的测评方法、装置及系统 Pending CN107766234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710773287.5A CN107766234A (zh) 2017-08-31 2017-08-31 一种基于移动设备的网页健康度的测评方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710773287.5A CN107766234A (zh) 2017-08-31 2017-08-31 一种基于移动设备的网页健康度的测评方法、装置及系统

Publications (1)

Publication Number Publication Date
CN107766234A true CN107766234A (zh) 2018-03-06

Family

ID=61265016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710773287.5A Pending CN107766234A (zh) 2017-08-31 2017-08-31 一种基于移动设备的网页健康度的测评方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107766234A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763279A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN108900339A (zh) * 2018-07-02 2018-11-27 阿里巴巴集团控股有限公司 一种度量业务质量的方法、装置及电子设备
CN109657167A (zh) * 2018-11-29 2019-04-19 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
CN113689585A (zh) * 2021-10-25 2021-11-23 深圳市安软慧视科技有限公司 一种无感考勤打卡方法、系统及相关设备
CN113709183A (zh) * 2021-09-16 2021-11-26 北京恒安嘉新安全技术有限公司 数据处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN103281177A (zh) * 2013-04-10 2013-09-04 广东电网公司信息中心 对Internet信息系统恶意攻击的检测方法及系统
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN103281177A (zh) * 2013-04-10 2013-09-04 广东电网公司信息中心 对Internet信息系统恶意攻击的检测方法及系统
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南通大学教务处: "《学海图南 南通大学优秀毕业设计(论文)集 2015届》", 31 March 2016, 苏州大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763279A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN108763279B (zh) * 2018-04-11 2020-12-15 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN108900339A (zh) * 2018-07-02 2018-11-27 阿里巴巴集团控股有限公司 一种度量业务质量的方法、装置及电子设备
CN109657167A (zh) * 2018-11-29 2019-04-19 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN109657167B (zh) * 2018-11-29 2023-11-21 彩讯科技股份有限公司 数据采集方法、装置、服务器及存储介质
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
CN113190779B (zh) * 2021-05-08 2023-07-28 北京百度网讯科技有限公司 网页评估方法和装置
CN113709183A (zh) * 2021-09-16 2021-11-26 北京恒安嘉新安全技术有限公司 数据处理方法、装置、设备及存储介质
CN113709183B (zh) * 2021-09-16 2023-07-18 北京恒安嘉新安全技术有限公司 数据处理方法、装置、设备及存储介质
CN113689585A (zh) * 2021-10-25 2021-11-23 深圳市安软慧视科技有限公司 一种无感考勤打卡方法、系统及相关设备

Similar Documents

Publication Publication Date Title
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN106372113B (zh) 新闻内容的推送方法及系统
CN107862022B (zh) 文化资源推荐系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
JinHuaXu et al. Web user clustering analysis based on KMeans algorithm
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN107451861B (zh) 一种大数据下用户上网特征识别的方法
CN105306495B (zh) 用户识别方法和装置
US20150074146A1 (en) Method and system for discovering dynamic relations among entities
CN107220386A (zh) 信息推送方法和装置
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN106874266A (zh) 用户画像方法和用于用户画像的装置
CN105224691B (zh) 一种信息处理方法及装置
CN112104642B (zh) 一种异常账号确定方法和相关装置
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN101833587A (zh) 网络视频搜索系统
CN106528777A (zh) 跨屏用户标识归一的方法及其系统
CN103745006B (zh) 一种互联网信息搜索系统及方法
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN108763274A (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN110363427A (zh) 模型质量评估方法和装置
US9336316B2 (en) Image URL-based junk detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190426

Address after: 518057 South Mountain High-tech Zone, Shenzhen City, Guangdong Province

Applicant after: Surfilter Network Technology Co., Ltd.

Address before: 510623 Room 702, No. 100, West Huangpu Avenue, Tianhe District, Guangzhou City, Guangdong Province (Office only)

Applicant before: Guangzhou number Waugh Mdt InfoTech Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306