CN112270172A - 一种基于网页标签分布特征的网络数据自动清洗方法和系统 - Google Patents

一种基于网页标签分布特征的网络数据自动清洗方法和系统 Download PDF

Info

Publication number
CN112270172A
CN112270172A CN202011130052.2A CN202011130052A CN112270172A CN 112270172 A CN112270172 A CN 112270172A CN 202011130052 A CN202011130052 A CN 202011130052A CN 112270172 A CN112270172 A CN 112270172A
Authority
CN
China
Prior art keywords
node
label
information
model
distribution characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011130052.2A
Other languages
English (en)
Inventor
朱俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ti Krypton New Media Technology Co ltd
Original Assignee
Beijing Ti Krypton New Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ti Krypton New Media Technology Co ltd filed Critical Beijing Ti Krypton New Media Technology Co ltd
Priority to CN202011130052.2A priority Critical patent/CN112270172A/zh
Publication of CN112270172A publication Critical patent/CN112270172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网页标签分布特征的网络新闻数据自动清洗的方法和系统,利用离线爬虫系统爬取网络新闻数据:对爬取的离线新闻数据进行树节点解析,提取节点当中的标签名称、属性、文本、链接等属性信息;采用基于n‑gram2vec的思想通过当前节点预测其他节点块信息,通过训练得到标签的词嵌入信息基于预训练的词嵌入信息构建智能模型判别系统,决定平铺的节点的去留:智能模型根据文章标签的类型分为文本判别模型和图片判别模型,两类模型采用不同特征工程进行训练,最终进行预测,将二者结果根据之前的节点序列组合起来。

Description

一种基于网页标签分布特征的网络数据自动清洗方法和系统
技术领域
本发明涉及数据清洗技术领域,具体领域为一种基于网页标签分布特征的网络数据自动清洗方法和系统。
背景技术
常规的数据采集步骤,采集业务逻辑编写,任务分发通过下载器进行网页内容下载,根据各个文章的样式进行规则书写,清洗出需要内容。需要大量人工配置模板提取需要清洗的模块,网络新闻数据中存在大量的缩略图、广告图片、推荐阅读链接、推广链接、gif图片等噪音,常用的清洗策略采用正则或者模式匹配丢失信息且不同公众号模板不一致更新频繁需要大量人工资源,出现问题反馈很慢。现有的技术方案不适合或者清洗的精度不理想,成本较高,结果反馈较慢等缺陷。
发明内容
本发明的目的在于提供一种基于网页标签分布特征的网络数据自动清洗方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:包括以下步骤:
步骤一:利用离线爬虫系统爬取网络新闻数据:
即通过爬虫采集系统,根据列表页原则采集文章、网络中的新闻数据,继而获得离线的新闻数据;
步骤二:对爬取的离线新闻数据进行树节点解析,提取节点当中的标签名称、属性、文本、链接等属性信息;
步骤三:采用基于n-gram2vec的思想通过当前节点预测其他节点块信息,通过训练得到标签的词嵌入信息:
基于n-gram2vec的思想进行数据模型训练,将带有html tag标签的原文进行特征工程处理,形成智能模型;
步骤四:基于预训练的词嵌入信息构建智能模型判别系统,决定平铺的节点的去留:
整个训练过程采用BP算法进行训练,对输出的智能模型,预测当前节点的去留概率;
步骤五:智能模型根据文章标签的类型分为文本判别模型和图片判别模型,两类模型采用不同特征工程进行训练,最终进行预测,将二者结果根据之前的节点序列组合起来。
步骤三中,基于n-gram2vec的模型训练中,将词向量结构根据当前节点wt标签节点特征属性预测wt+1、wt+2和wt-1、wt-2的标签块,同时在模型当中引进n-gram2vec思想,利用当前节点的标签信息预测周边节点块的标签信息,除了保存上下文信息还保留了样式块信息。
步骤三中,所述的特征为输入层的节点特征,包括当前节点/Current node、父节点/Parent node、子节点的词嵌入/Child node、文章长度/Text length、节点位置特征/Position Percentage、图片节点的gif信息/Img gif、当前模板的图片数量/Img num、链接数量/Href num)、图片长款比例/Img ratio。
步骤四中,是通过html解析系统,将文章组织成树型结构,即将每一个节点对应树结构的节点或者分叉点,通过特征预处理节点筛选其中符合特征需要的标签、属性、属性值,通过n-gram2vec词块嵌入求和取均值拿到当前节点、父节点、子节点的词块嵌入表述,除此以外其他各个特征通过构建阶梯函数,进行特征表述。
步骤四中,节点标签词嵌入过程中考虑到标签统计词频特征,分别经过两个隐藏层,pool层输入到softmax层,卷积神经网络理论部分如下:
全卷积定义如下:
Figure BDA0002734845910000031
池化层,采用k-max池化函数,公式如下:
Figure BDA0002734845910000032
顶层softmax层的公式如下:
Figure BDA0002734845910000033
基于的一种基于网页标签分布特征的网络数据自动清洗方法构建的系统,包括采集模块、基于n-gram2vec的思想的模型训练模块、特征提取模块、智能模型建立模块及后置处理模块,所述采集模块基于离线爬虫采集系统设计,所述特征提取模块包括标签数据提取模块与待测数据提取模块。
与现有技术相比,本发明的有益效果是:针对网络新闻数据进行清洗,且尽可能保存文章样式块,不丢失文章关键信息,生产环境不需要太多人力资源,提高网络新闻数据的清洗的精度、提高噪音信息的清除效率。
附图说明
图1为本发明提出的系统架构图;
图2为本发明步骤三提出的节点架构图;
图3为本发明提出的分层结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1-3,本发明提供一种技术方案:一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:包括以下步骤:
步骤一:利用离线爬虫系统爬取网络新闻数据:
即通过爬虫采集系统,根据列表页原则采集文章、网络新闻数据,继而获得离线的新闻数据;
步骤二:对爬取的离线新闻数据进行树节点解析,提取节点当中的标签名称、属性、文本、链接等属性信息;
步骤三:采用基于n-gram2vec的思想通过当前节点预测其他节点块信息,通过训练得到标签的词嵌入信息:
基于n-gram2vec的思想进行数据模型训练,将带有html tag标签的原文进行特征工程处理,形成智能模型;
步骤四:基于预训练的词嵌入信息构建智能模型判别系统,决定平铺的节点的去留:
整个训练过程采用BP算法进行训练,对输出的智能模型,预测当前节点的去留概率;
步骤五:智能模型根据文章标签的类型分为文本判别模型和图片判别模型,两类模型采用不同特征工程进行训练,最终进行预测,将二者结果根据之前的节点序列组合起来。
步骤三中,基于n-gram2vec的模型训练中,将词向量结构根据当前节点wt标签节点特征属性预测wt+1、wt+2和wt-1、wt-2的标签块,同时在模型当中引进n-gram2vec思想,利用当前节点的标签信息预测周边节点块的标签信息,除了保存上下文信息还保留了样式块信息。
步骤三中,所述的特征为输入层的节点特征,包括当前节点/Current node、父节点/Parent node、子节点的词嵌入/Child node、文章长度/Text length、节点位置特征/Position Percentage、图片节点的gif信息/Img gif、当前模板的图片数量/Img num、链接数量/Href num)、图片长款比例/Img ratio。
步骤四中,是通过html解析系统,将文章组织成树型结构,即将每一个节点对应树结构的节点或者分叉点,通过特征预处理节点筛选其中符合特征需要的标签、属性、属性值,通过n-gram2vec词块嵌入求和取均值拿到当前节点、父节点、子节点的词块嵌入表述,除此以外其他各个特征通过构建阶梯函数,进行特征表述。
步骤四中,节点标签词嵌入过程中考虑到标签统计词频特征,分别经过两个隐藏层,pool层输入到softmax层,卷积神经网络理论部分如下:
全卷积定义如下:
Figure BDA0002734845910000051
池化层,采用k-max池化函数,公式如下:
Figure BDA0002734845910000052
顶层softmax层的公式如下:
Figure BDA0002734845910000053
基于的一种基于网页标签分布特征的网络数据自动清洗方法构建的系统,包括采集模块、基于n-gram2vec的思想的模型训练模块、特征提取模块、智能模型建立模块及后置处理模块,所述采集模块基于离线爬虫采集系统设计,所述特征提取模块包括标签数据提取模块与待测数据提取模块。
在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明使用到的标准零件均可以从市场上购买,异形件根据说明书和附图的记载均可以进行订制,各个零件的具体连接方式均采用现有技术中成熟的螺栓、铆钉、焊接等常规手段,机械、零件和设备均采用现有技术中,常规的型号,加上电路连接采用现有技术中常规的连接方式,在此不再详述。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:包括以下步骤:
步骤一:利用离线爬虫系统爬取网络新闻数据:
即通过爬虫采集系统,根据列表页原则采集文章、网络中的新闻数据,继而获得离线的新闻数据;
步骤二:对爬取的离线新闻数据进行树节点解析,提取节点当中的标签名称、属性、文本、链接等属性信息;
步骤三:采用基于n-gram2vec的思想通过当前节点预测其他节点块信息,通过训练得到标签的词嵌入信息:
基于n-gram2vec的思想进行数据模型训练,将带有html tag标签的原文进行特征工程处理,形成智能模型;
步骤四:基于预训练的词嵌入信息构建智能模型判别系统,决定平铺的节点的去留:
整个训练过程采用BP算法进行训练,对输出的智能模型,预测当前节点的去留概率;
步骤五:智能模型根据文章标签的类型分为文本判别模型和图片判别模型,两类模型采用不同特征工程进行训练,最终进行预测,将二者结果根据之前的节点序列组合起来。
2.根据权利要求1所述的一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:步骤三中,基于n-gram2vec的模型训练中,将词向量结构根据当前节点wt标签节点特征属性预测wt+1、wt+2和wt-1、wt-2的标签块,同时在模型当中引进n-gram2vec思想,利用当前节点的标签信息预测周边节点块的标签信息,除了保存上下文信息还保留了样式块信息。
3.根据权利要求1所述的一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:步骤三中,所述的特征为输入层的节点特征,包括当前节点/Current node、父节点/Parent node、子节点的词嵌入/Child node、文章长度/Text length、节点位置特征/Position Percentage、图片节点的gif信息/Img gif、当前模板的图片数量/Img num、链接数量/Href num)、图片长款比例/Img ratio。
4.根据权利要求1所述的一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:步骤四中,是通过html解析系统,将文章组织成树型结构,即将每一个节点对应树结构的节点或者分叉点,通过特征预处理节点筛选其中符合特征需要的标签、属性、属性值,通过n-gram2vec词块嵌入求和取均值拿到当前节点、父节点、子节点的词块嵌入表述,除此以外其他各个特征通过构建阶梯函数,进行特征表述。
5.基于权利要求4所述的一种基于网页标签分布特征的网络数据自动清洗方法,其特征在于:步骤四中,节点标签词嵌入过程中考虑到标签统计词频特征,分别经过两个隐藏层,pool层输入到softmax层,卷积神经网络理论部分如下:
全卷积定义如下:
Figure FDA0002734845900000021
池化层,采用k-max池化函数,公式如下:
Figure FDA0002734845900000022
顶层softmax层的公式如下:
Figure FDA0002734845900000023
6.基于权利要求1-5所述的一种基于网页标签分布特征的网络数据自动清洗方法构建的系统,其特征在于:包括采集模块、基于n-gram2vec的思想的模型训练模块、特征提取模块、智能模型建立模块及后置处理模块,所述采集模块基于离线爬虫采集系统设计,所述特征提取模块包括标签数据提取模块与待测数据提取模块。
CN202011130052.2A 2020-10-21 2020-10-21 一种基于网页标签分布特征的网络数据自动清洗方法和系统 Pending CN112270172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011130052.2A CN112270172A (zh) 2020-10-21 2020-10-21 一种基于网页标签分布特征的网络数据自动清洗方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011130052.2A CN112270172A (zh) 2020-10-21 2020-10-21 一种基于网页标签分布特征的网络数据自动清洗方法和系统

Publications (1)

Publication Number Publication Date
CN112270172A true CN112270172A (zh) 2021-01-26

Family

ID=74342325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011130052.2A Pending CN112270172A (zh) 2020-10-21 2020-10-21 一种基于网页标签分布特征的网络数据自动清洗方法和系统

Country Status (1)

Country Link
CN (1) CN112270172A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800043A (zh) * 2021-02-05 2021-05-14 凯通科技股份有限公司 一种物联网终端信息提取方法、装置、设备和存储介质
CN114461887A (zh) * 2022-04-14 2022-05-10 中电云数智科技有限公司 一种分布式互联网数据采集方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800043A (zh) * 2021-02-05 2021-05-14 凯通科技股份有限公司 一种物联网终端信息提取方法、装置、设备和存储介质
CN114461887A (zh) * 2022-04-14 2022-05-10 中电云数智科技有限公司 一种分布式互联网数据采集方法及装置
CN114461887B (zh) * 2022-04-14 2022-06-28 中电云数智科技有限公司 一种分布式互联网数据采集方法及装置

Similar Documents

Publication Publication Date Title
CN113254803B (zh) 一种基于多特征异质图神经网络的社交推荐方法
CN106709035B (zh) 一种电力多维全景数据的预处理系统
CN103649905B (zh) 用于统一信息表示的方法和系统及其应用
CN103970873A (zh) 一种音乐推荐方法和系统
CN112270172A (zh) 一种基于网页标签分布特征的网络数据自动清洗方法和系统
CN110413786A (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN113761250A (zh) 模型训练方法、商户分类方法及装置
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN114757307A (zh) 一种人工智能自动训练方法、系统、装置及存储介质
CN113495959A (zh) 一种基于文本数据的金融舆情识别方法及系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN106126623A (zh) 信息处理方法及装置
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN114579869A (zh) 模型训练方法以及相关产品
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN114528404A (zh) 一种识别省市区的方法及装置
CN113744023A (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
CN112699271A (zh) 一种提升用户在视频网站留存时间的视频推荐系统方法
CN112287274A (zh) 一种网站列表页面的分类方法、系统及存储介质
CN112926368A (zh) 一种识别障碍物的方法和装置
CN105512296A (zh) 基于网页差异的网页分析方法及系统
AU2021106572A4 (en) A recommendation system and method for e-commerce using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination