CN111475703B - 一种抓取网络特定数据的分析方法 - Google Patents
一种抓取网络特定数据的分析方法 Download PDFInfo
- Publication number
- CN111475703B CN111475703B CN202010348134.8A CN202010348134A CN111475703B CN 111475703 B CN111475703 B CN 111475703B CN 202010348134 A CN202010348134 A CN 202010348134A CN 111475703 B CN111475703 B CN 111475703B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- region
- target
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种抓取网络特定数据的分析方法,所述抓取网络特定数据的分析方法为数据首先经过过滤条件进入算法系统,先使用特征码模型对数据进行处理,如果没有找到目标数据,则转入区域模型进一步处理,如果依然失败,则视为不存在目标数据。本发明相对于现有技术具有更强的数据针对性,可以对数据封闭的环境进行数据抓取,有利于开发者快速将应用植入系统当中,免去数据对接的流程,本发明同时启用两种模型对数据进行分析提取,两种模型优劣互补,实现了对有一定特征数据的可靠抓取。
Description
技术领域
本发明涉及一种监测网络数据流、并使用特定算法抓取符合算法模型要求的数据的分析方法。
背景技术
在授权公告号为CN201710776642提供的基于互联网数据抓取系统的数据抓取方法中使用深度优先以及广度优先算法,提取包含标题、日期、作者、正文特定标签下的内容并进行分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能。
现有技术可以从海量信息中抽取特定关键信息,但前提是需要知道特定信息是什么,无法对未知数据作出一定预判并提取,针对性不够强,比如现有技术一般只做基本排查,可以获取基于XX标签下XX网发布的最新消息,但具体内容还是需要人工分辨。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种抓取网络特定数据的分析方法,对数据抓取更有针对性,可以对数据封闭的环境进行数据抓取,使得开发者快速将应用植入系统当中,免去数据对接的流程。
为实现上述目的,本发明提供如下技术方案:一种抓取网络特定数据的分析方法,所述抓取网络特定数据的分析方法为数据首先经过过滤条件进入算法系统,先使用特征码模型对数据进行处理,如果没有找到目标数据,则转入区域模型进一步处理,如果依然失败,则视为不存在目标数据。
进一步的,所述特征码模型是在生成模型期间,将目标数据区域的前后特定长度数据作为特征码,多次验证确定后,保存下来的最终模型,当数据进入该模型时,使用前后特征码在数据内比对,按相似度高低评分,并依次对前后特征码排列组合,每个组合对应一个数据区域,从高评分开始依次取出组合,将对应的数据域做规则检查,如果检查通过则数据取出成功。
进一步的,所述区域模型是在生成模型期间,将目标数据区域所在数据位置作为区域,并提取部分其他数据作为锚点,多次验证确定后,保存下来的最终模型,当数据进入该模型时,先使用锚点进行比对,锚点所在区域与锚点数据重合率作为评分,当评分大于保存的平均评分时,使用区域取出目标数据并进行规则检查,如果数据长度有偏差,则在区域上对长度差值绝对值做扩展,检查通过则数据取出成功。
与现有技术相比,本发明具有以下有益效果:
(1)本发明相对于现有技术具有更强的数据针对性,可以对数据封闭的环境进行数据抓取,有利于开发者快速将应用植入系统当中,免去数据对接的流程,本发明同时启用两种模型对数据进行分析提取,两种模型优劣互补,实现了对有一定特征数据的可靠抓取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种抓取网络特定数据的分析方法的算法分析逻辑图。
图2是根据本发明实施例的一种抓取网络特定数据的分析方法的特征码模型的逻辑图。
图3是根据本发明实施例的一种抓取网络特定数据的分析方法的区域模型的逻辑图。
具体实施方式
下面,结合附图1-3以及具体实施方式,对发明做出进一步的描述:
图1为算法分析逻辑图,数据首先经过过滤条件进入算法系统,先使用特征码模型对数据进行处理,如果没有找到目标数据,则转入区域模型进一步处理。如果依然失败,则视为不存在目标数据。
图2为特征码模型的逻辑图。特征码模型是在生成模型期间,将目标数据区域的前后特定长度数据作为特征码,多次验证确定后,保存下来的最终模型。当数据进入该模型时,使用前后特征码在数据内比对,按相似度高低评分,并依次对前后特征码排列组合,每个组合对应一个数据区域。从高评分开始依次取出组合,将对应的数据域做规则检查,如果检查通过则数据取出成功。该模型的特点是可以比较自由地应对目标数据位置多变的情况。
图3为区域模型的逻辑图。区域模型是在生成模型期间,将目标数据区域所在数据位置作为区域,并提取部分其他数据作为锚点,多次验证确定后,保存下来的最终模型。当数据进入该模型时,先使用锚点进行比对,锚点所在区域与锚点数据重合率作为评分。当评分大于保存的平均评分时,使用区域取出目标数据并进行规则检查(如果数据长度有偏差,则在区域上对长度差值绝对值做扩展)。检查通过则数据取出成功。该模型的特点是对固定格式的数据有很强的适应性。
本发明同时启用这两种模型,对数据进行分析提取,两种模型优劣互补,实现了可靠的对有一定特征数据的抓取功能。本发明中的特征码模型以及区域模型都可以单独拿出来,作为数据提取的方法使用,虽然准确率没有本发明的模型互补的形式高,但依然可以实现数据提取的目的。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种抓取网络特定数据的分析方法,其特征在于,所述抓取网络特定数据的分析方法为数据首先经过过滤条件进入算法系统,先使用特征码模型对数据进行处理,如果没有找到目标数据,则转入区域模型进一步处理,如果依然失败,则视为不存在目标数据;
所述特征码模型是在生成模型期间,将目标数据区域的前后特定长度数据作为特征码,多次验证确定后,保存下来的最终模型,当数据进入该模型时,使用前后特征码在数据内比对,按相似度高低评分,并依次对前后特征码排列组合,每个组合对应一个数据区域,从高评分开始依次取出组合,将对应的数据域做规则检查,如果检查通过则数据取出成功;
所述区域模型是在生成模型期间,将目标数据区域所在数据位置作为区域,并提取部分其他数据作为锚点,多次验证确定后,保存下来的最终模型,当数据进入该模型时,先使用锚点进行比对,锚点所在区域与锚点数据重合率作为评分,当评分大于保存的平均评分时,使用区域取出目标数据并进行规则检查,如果数据长度有偏差,则在区域上对长度差值绝对值做扩展,检查通过则数据取出成功。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010348134.8A CN111475703B (zh) | 2020-04-28 | 2020-04-28 | 一种抓取网络特定数据的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010348134.8A CN111475703B (zh) | 2020-04-28 | 2020-04-28 | 一种抓取网络特定数据的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475703A CN111475703A (zh) | 2020-07-31 |
CN111475703B true CN111475703B (zh) | 2023-06-13 |
Family
ID=71761891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010348134.8A Active CN111475703B (zh) | 2020-04-28 | 2020-04-28 | 一种抓取网络特定数据的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475703B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN106326236A (zh) * | 2015-06-18 | 2017-01-11 | 天脉聚源(北京)科技有限公司 | 一种网页内容识别方法和系统 |
CN110084103A (zh) * | 2019-03-15 | 2019-08-02 | 深圳英飞拓科技股份有限公司 | 一种基于人脸识别技术的同行人分析方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595703B2 (en) * | 2006-01-30 | 2013-11-26 | Microsoft Corporation | Context based code analysis |
-
2020
- 2020-04-28 CN CN202010348134.8A patent/CN111475703B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN106326236A (zh) * | 2015-06-18 | 2017-01-11 | 天脉聚源(北京)科技有限公司 | 一种网页内容识别方法和系统 |
CN110084103A (zh) * | 2019-03-15 | 2019-08-02 | 深圳英飞拓科技股份有限公司 | 一种基于人脸识别技术的同行人分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
"基于 LDA 的微博用户粉丝亲密度评价模型";王秋森等;《计算机应用与软件》;20131216;第67-71页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111475703A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8359294B2 (en) | Incorrect hyperlink detecting apparatus and method | |
CN110991171B (zh) | 敏感词检测方法及装置 | |
CN109766525A (zh) | 一种数据驱动的敏感信息泄露检测框架 | |
CN111967063B (zh) | 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质 | |
CN103577755A (zh) | 一种基于支持向量机的恶意脚本静态检测方法 | |
CN105426354A (zh) | 一种句向量的融合方法和装置 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN111324797B (zh) | 一种高速精准获取数据的方法和装置 | |
CN109240258A (zh) | 基于词向量的汽车故障智能辅助诊断方法和系统 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN113449099A (zh) | 文本分类方法和文本分类设备 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN112328792A (zh) | 一种基于dbscan聚类算法识别信用事件的优化方法 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN115269314A (zh) | 一种基于日志的事务异常检测方法 | |
CN113971398A (zh) | 一种面向网络安全领域实体快速识别的词典构造方法 | |
CN111475703B (zh) | 一种抓取网络特定数据的分析方法 | |
CN109753798A (zh) | 一种基于随机森林与FastText的Webshell检测模型 | |
CN111435375A (zh) | 一种基于FastText的威胁情报自动化标注方法 | |
CN110399485B (zh) | 基于词向量和机器学习的数据溯源方法和系统 | |
CN106095808A (zh) | 一种mdb文件碎片恢复的方法和装置 | |
Martin et al. | Duluth at semeval-2021 task 11: Applying deberta to contributing sentence selection and dependency parsing for entity extraction | |
CN115828888A (zh) | 一种针对多种网络日志进行语义解析及结构化的方法 | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
CN111400606B (zh) | 一种基于全局和局部信息抽取的多标签分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |