CN106776567A - 一种互联网大数据分析提取方法及系统 - Google Patents

一种互联网大数据分析提取方法及系统 Download PDF

Info

Publication number
CN106776567A
CN106776567A CN201611200311.8A CN201611200311A CN106776567A CN 106776567 A CN106776567 A CN 106776567A CN 201611200311 A CN201611200311 A CN 201611200311A CN 106776567 A CN106776567 A CN 106776567A
Authority
CN
China
Prior art keywords
data
weight
information
web page
source code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611200311.8A
Other languages
English (en)
Other versions
CN106776567B (zh
Inventor
黄译萱
陈桓
蔡晓胜
张良杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN201611200311.8A priority Critical patent/CN106776567B/zh
Publication of CN106776567A publication Critical patent/CN106776567A/zh
Application granted granted Critical
Publication of CN106776567B publication Critical patent/CN106776567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种互联网大数据分析提取方法包括:获取目标对象的网页源码文本集;从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集;从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。可见,本申请在获取互联网上的网页源码文本后进行了分析和提取,使得能够对网页特征信息进行排序和筛选,排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。另外,本申请还相应公开了一种互联网大数据分析提取系统。

Description

一种互联网大数据分析提取方法及系统
技术领域
本发明涉及大数据管理领域,特别涉及一种互联网大数据分析提取方法及系统。
背景技术
自古以来人们就深知信息的重要性,拥有更多和更精准的信息就能获得优势,随着社会的不断进步,信息越来越多样化,且数量也是成倍的增长,大数据的概念也随之提出,从庞杂的数据中,提取所需的数据进行分析,得到直观的信息,以此来占据先机,获取利益。
目前,对于企业大数据的采集采用网络爬虫,前往各大公示公开的政府的网站爬取企业相关信息,做了结构化HTML文件存储下来,成为自身的数据,并支持数据的更新,而政府的网站可能仅有企业的少量信息,且相对于企业的官网更新速度慢,不足以满足用户的需求,而单纯的前往互联网中搜索企业相关信息,可能会被一些钓鱼网站、过期信息和大量的无用信息所干扰,难以得到真实可信的数据,不能保证信息的准确性和实用性。
因此,如何能够更深入的解析企业大数据,提供准确、可信和全面的信息是要解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种互联网大数据分析提取方法及系统,提高数据的准确性和可信度。其具体方案如下:
一种互联网大数据分析提取方法,包括:
获取目标对象的网页源码文本集;
从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集;
从所述第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
优选的,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息的过程包括:
利用JSOUP分别对所述网页源码文本集中的每份网页源码文本进行解析,得到相对应的纯内容数据集,从所述纯内容数据集中的每份纯内容数据中提取出所述目标对象的网页特征信息。
优选的,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重的过程包括:
从所述纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的权重;
从所述纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取所述目标对象的简要描述信息,并得到简要描述信息的权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的权重。
优选的,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重的过程包括:
从所述纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取所述目标对象的简要描述信息,并得到简要描述信息的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的初始权重;
计算与网页源码文本相对应的页面权重,将页面权重与相对应的初始权重相加,得到网页特征信息的权重。
优选的,计算页面权重的过程包括:
利用关键字和PageRank算法、Hilltop算法、HITS算法或TrustRank算法,分析网页源码文本的页面可信度,得到页面权重。
优选的,还包括:在从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息前,接收算法改变请求,以改变算法。
优选的,还包括:
得到所述正查数据后,利用网页特征信息在互联网上获取第一摘要信息集;
从所述第一摘要信息集中筛选出完全包含网页特征信息和所述目标对象名称的摘要信息,得到第二摘要信息集;
从所述第二摘要信息集中的每份摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集;
从所述第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
优选的,还包括:得到所述正查数据和所述反查数据后,利用所述正查数据和所述反查数据进行撞库匹配,筛选出撞库数据。
本发明还公开了一种互联网大数据分析提取系统,包括:
网页文本获取模块,用于获取目标对象的网页源码文本集;
网页特征信息提取模块,用于从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,得到第一特征信息集;
网页特征信息权重分析模块,用于分析出网页特征信息的权重;
第一权重筛选模块,用于从所述第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
优选的,还包括:
摘要信息获取模块,用于得到所述正查数据后,利用网页特征信息在互联网上获取第一摘要信息集;
摘要信息筛选模块,用于从所述第一摘要信息集中筛选出完全包含网页特征信息和所述目标对象名称的摘要信息,得到第二摘要信息集;
摘要特征信息提取模块,用于从所述第二摘要信息集中的每份摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集;
第二权重筛选模块,用于从所述第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
本发明中,互联网大数据分析提取方法包括:获取目标对象的网页源码文本集;从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集;从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。可见,本发明在获取互联网上目标对象的网页源码文本后,对网页源码文本进行分析和提取,从中提取出第一特征信息集,并为第一特征信息集中的每个网页特征信息分配权重,使得能够进行排序和筛选,最后从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种互联网大数据分析提取方法流程图;
图2为本发明实施例提供的另一种互联网大数据分析提取方法流程图;
图3为本发明实施例提供的另一种互联网大数据分析提取方法流程图;
图4为本发明实施例提供的一种互联网大数据分析提取系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种互联网大数据分析提取方法,参考图1所示,该方法包括:
步骤S11:获取目标对象的网页源码文本集。
在实际应用中,可以利用分布式爬虫技术在不同地域部署数十台服务器,在每台服务器上使用Docker轻量级虚拟机技术创建数百个容器,在每个容器上装载爬虫模块,形成大型分布式爬虫网络。将一个大型爬虫任务划分为大量的小型子任务并构建任务队列,然后通过多地多容器协同的任务调度机制,将子任务按需分配到各个容器上执行,从而实现超高并发的分布式爬虫,以此在互联网上,采集通过搜索引擎搜索出的目标对象的多个网页源码文本,得到HTML文件形式的网页源码文本,并将多个网页源码文本整合为网页源码文本集的形式。
例如,用户预先设定要查询的公司名称,网络爬虫将用户输入的公司名称输入到互联网搜索引擎中,对搜索引擎搜索到的相应公司的数据进行爬取,以此获得网页源码文本。
其中,采用爬虫技术获取搜索引擎搜索出的目标对象的多个网页源码文本时,可以预先设定获取网页源码文本的数量,例如只获取搜索引擎搜索出的第一个页面内的网页,或只获取前10个网页。
步骤S12:从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集。
具体的,可以利用正则匹配、固话区号匹配限制、基于自然语言处理技术的算法、地域匹配权重和关键字定位等算法或规则,对网页源码文本进行提取,并分析出网页特征信息的权重。
例如,通过正则匹配和固话区号匹配限制,对网页源码文本中的电话和邮箱进行提取,并分别得到电话和邮箱各自的权重;通过基于自然语言处理技术的算法和地域匹配权重,对网页源码文本中的地址信息进行提取,并得到地址信息的权重;通过关键字定位以及停用词筛选,对网页源码文本中的公司的简要描述信息进行提取,并得到简要描述信息的权重;通过关键字定位、正则匹配和基于自然语言处理技术的算法,对网页源码文本中的公司联系人名称、传真和职位等信息进行提取,并分别得到公司联系人名称、传真和职位等信息各自的权重。
可以理解的是,使用多种算法可以更加精准的提取和分析出网页特征信息的权重,当然相应的计算和处理时间也会延长,在实际应用中有时不需要这么高的精准度,可以适当减少使用的算法。
例如,通过正则匹配,对网页源码文本中的电话和邮箱的进行提取,并分别得到电话和邮箱各自的权重;通过基于自然语言处理技术的算法,对网页源码文本中的地址信息、公司的简要描述信息、联系人名称、传真和职位等信息进行提取,并分别得到地址信息、公司的简要描述信息、联系人名称、传真和职位等信息各自的权重。
其中,分析出网页特征信息的权重的具体过程为,当搜索到相关的网页特征信息时,查找该网页特征信息周边是否还有其他相关的网页特征信息,例如电话与联系人名称,公司名称与邮箱等具有联系的网页特征信息,如果有,则可以利用两个网页特征信息之间在文本中的的距离,分配合适的权重。
其中,基于自然语言处理技术的算法可以包括HMM-Viterbi角色标注中国人名(HMM,Hidden Markov Model,隐马尔可夫模型)、地名识别,N-最短路径分词等关键算法。
需要说明的是,从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,并分析出网页特征信息的权重过程中不仅仅局限于本实施例中提到的正则匹配、固话区号匹配限制、基于自然语言处理技术的算法、地域匹配权重和关键字定位,还可以包括其他能够执行相同作用的算法或规则,在此不做限定。
步骤S13:从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
具体的,利用得到的网页特征信息的权重和第一预设权重,筛选出权重值高于第一预设权重的网页特征信息,即筛选出准确度较高的信息,例如,第一预设权重为80,则网页特征信息的权重在80以下的全部被舍弃,仅保留权重值在80以上的网页特征信息,将保留的网页特征信息保存到数据库中,得到正查数据。
可见,本发明在获取互联网上目标对象的网页源码文本后,对网页源码文本进行分析和提取,从中提取出第一特征信息集,并为第一特征信息集中的每个网页特征信息分配权重,使得能够进行排序和筛选,最后从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。
需要说明的是,本发明实施例中在从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息前,接收算法改变请求,以改变第一算法和/或第二算法,以此来满足不同情况下的应用需求,使算法具有针对性,提升提取精度,同时根据实际应用的需求进行精简,也可以提升提取速度,以此来提升效率,例如,用户仅仅需要对公司联系人的名字进行搜索,则用户可以输入算法改变请求,指定使用关键字定位进行提取和权重的分配,通过搜索该公司的名字和联系人的名字进行提取和权重的分配,便可达到预期效果,节省了大量的运算时间,提高了效率。
在本发明实施例的一种实际应用中,为防止数据因为过于陈旧而造成准确度下降,可以实时采集网络上目标对象的网页源码文本,并实时进行提取和筛选,以保持数据的准确度。
本发明实施例公开了一种具体的互联网大数据分析提取方法,相对于上一实施例,本实施例对技术方案作了进一步说明和优化。参考图2所示,具体的:
步骤S21:获取目标对象的网页源码文本集。
步骤S22:利用JSOUP分别对网页源码文本集中的每份网页源码文本进行解析,得到相对应的纯内容数据集。
在实际应用中,从网页直接获取的网页源码文本中,包含有一定的代码等与目标对象无关的无用信息,这些无用信息将会影响到后续的提取过程,产生误判,同时也降低后续第一算法对于网页特征信息提取的速度。
因此,增加对网页源码文本预处理的过程,利用JSOUP分别对网页源码文本集中的每份网页源码文本进行解析,将网页源码文本由HTML文件形式解析为纯内容数据,得到相对应的纯内容数据集,当然,文件的解析可以使用JSOUP进行解析,也可以使用其他方法进行解析,解析后得到的文件格式也可以是多样的,只要能够将所需信息提取出来,便于后续的分析提取便可,在此不做具体限定。
步骤S23:从纯内容数据集中的每份纯内容数据中提取出目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集。
具体的,从纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的权重;
从纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的权重;
从纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取目标对象的简要描述信息,并得到简要描述信息的权重;
从纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的权重。
其中,可以通过利用关键字和PageRank算法、Hilltop算法、HITS算法或TrustRank算法,分析网页源码文本的页面可信度,得到页面权重,将页面权重作为相对应的网页特征信息的权重。
需要说明的是,为了避免一些网页内容较少,在仅对网页特征信息分配权重的情况下,导致权重较高,但实际上该网页的内容可能并不是目标对象真实的信息,与此同时本发明实施例中,仅用页面权重作为网页特征信息的权重不够准确,难以精准的区分网页特征信息的可信度,仅能满足很低要求。
因此为了提高准确度和可信度,还可以从纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的初始权重;
从纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的初始权重;
从纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取目标对象的简要描述信息,并得到简要描述信息的初始权重;
从纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的初始权重;
计算与网页源码文本相对应的页面权重,将页面权重与相对应的初始权重相加,得到网页特征信息的权重。
步骤S24:从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
本发明实施例还公开了一种具体的互联网大数据分析提取方法,参考图3所示,具体的:
步骤S31:获取目标对象的网页源码文本集。
步骤S32:从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集。
步骤S33:从第一特征信息集中筛选出权重值高于预设权重的网页特征信息,得到正查数据。
步骤S34:得到正查数据后,利用网页特征信息在互联网上获取第一摘要信息集。
具体的,得到的正查数据中包含多个种类的网页特征信息,例如电话、邮箱、地址信息、公司的简要描述信息、联系人名称、传真和职位等信息,从中挑选一种或多种信息类别,在互联网上的搜索引擎中进行搜索,得到搜索条目后,通过爬虫技术获取条目下方的摘要信息,得到第一摘要信息集。
可以理解的是,可以从网页特征信息中挑选一种信息类别进行搜索,例如,从正查数据中选出目标公司的电话,在搜索引擎中搜索,搜索到目标公司的电话相关的词条以及摘要,使用爬虫技术获取搜索到的相关的词条以及摘要。
另外,还可以从网页特征信息中挑选多种信息类别进行搜索,例如,从正查数据中选出目标公司的名称、电话和地址信息,在搜索引擎中搜索,搜索到目标公司的名称、电话和地址信息相关的词条以及摘要,使用爬虫技术获取搜索到的相关的词条以及摘要。采用多种信息类别进行搜素相比单一信息进行搜索能够使搜索更加精确,但搜索范围也减小了。
步骤S35:从第一摘要信息集中筛选出完全包含网页特征信息和目标对象名称的摘要信息,得到第二摘要信息集。
具体的,从获取的摘要信息中筛选出完全包含网页特征信息和目标对象名称的摘要信息,得到第二摘要信息集。
步骤S36:从第二摘要信息集中的每个摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集。
例如,从第二摘要信息集中的每个摘要信息中通过正则匹配对搜索出的目标数据中出现的邮箱进行提取,并得到邮箱的权重;通过关键字定位和正则匹配提取地址信息,并得到地址信息的权重;通过关键字定位和基于自然语言处理技术的算法提取联系人,公司名等信息,并得到联系人,公司名等信息各自的权重;并保存筛选出来的条目的标题和摘要等原始信息;最后,得到第二特征信息集。
步骤S37:从第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
具体的,利用得到的摘要特征信息权重和第二预设权重,筛选出权重值高于第二预设权重的摘要特征信息反查数据。
需要说明的是,在得到反查数据后,可以只保存相较正查数据准确度更高的反查数据作为可信数据进行保存和使用。
在实际应用中,虽然反查数据相较于正查数据准确度已有很大提升,但因为还是从网络搜集后的数据,所以可能还存在一定的错误,因此为了进一步增加准确度,还可以得到正查数据和反查数据后,利用正查数据和反查数据进行撞库匹配,筛选出撞库数据以进一步提高准确度,具体过程包括:
当正查数据与反查数据包含相同的特征信息时,将两个特征信息出现的次数和权重求平均,得到综合权重,例如,正查数据中联系电话“1567558226”出现3次,权重分别为86、90和80,反查数据中出现次数为2次,权重分别为90和95,则联系电话“1567558226”的综合权重为5次权重相加之和,除以次数,得到88.2的综合权重,再利用综合权重与第三预设权重进行比较,从同类型的特征信息中筛选出综合权重大于等于第三预设权重的特征信息。
当正查数据与反查数据的同一类特征信息不同时,选择权重最高的一个,权重相同时选择反查数据的摘要特征信息,例如,正查数据中记有联系电话“1523378977”权重值为97,反查数据中记有联系电话为“1366675898”权重值为86,则选择权重最高的联系电话“1523378977”;正查数据中记有联系人为“张芳”权重值为90,反查数据中记有联系人为“李华”权重值为90,则选取联系人为“李华”。
最后,因为可能大于等于第三预设权重的特征信息不只一个,所以将大于等于第三预设权重的特征信息进行排序,可以最多选取权重最高的前5个同一类型但不同的特征信息作为撞库数据进行保存。
可以理解的是,选取多少特征信息可以根据实际应用需求进行设定,在此不做限定。
可见,本发明实施例在正查数据的基础上,进一步通过正查数据的结果,在互联网中搜索相关的信息,得到更为准确地摘要信息,再利用第二算法进行进一步提取,得到更为准确的反查数据,同时得到反查数据后,还可以通过正查数据与反查数据之间进行撞库匹配,从而得到撞库数据,确保不遗漏和多维度的保证数据的准确性和可信度。
相应的,本发明实施例还公开了一种互联网大数据分析提取系统,参见图4所示,该系统包括:
网页文本获取模块11,用于获取目标对象的网页源码文本集;
网页特征信息提取模块12,用于从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息,得到第一特征信息集;
网页特征信息权重分析模块13,用于分析出网页特征信息的权重;
第一权重筛选模块14,用于从第一特征信息集中筛选出权重值高于预设权重的网页特征信息,得到正查数据。
可见,本发明在获取互联网上目标对象的网页源码文本后,对网页源码文本进行分析和提取,从中提取出第一特征信息集,并为第一特征信息集中的每个网页特征信息分配权重,使得能够进行排序和筛选,最后从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。
具体的,上述网页特征信息提取模块12可以包括解析子模块和提取子模块;其中,
解析子模块,用于利用JSOUP分别对网页源码文本集中的每份网页源码文本进行解析,得到相对应的纯内容数据集;
提取子模块,用于从纯内容数据集中的每份纯内容数据提取出目标对象的网页特征信息。
本实施例中,上述提取子模块具体可以包括:第一提取单元、第二提取单元、第三提取单元和第四提取单元;其中,
第一提取单元,用于从纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息;
第二提取单元,用于从纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息;
第三提取单元,用于从纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取目标对象的简要描述信息;
第四提取单元,用于从纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息。
上述网页特征信息权重分析模块13,可以包括第一初始权重分析单元、第二初始权重分析单元、第三初始权重分析单元、第四初始权重分析单元、页面分析单元和权重计算单元;其中,
第一初始权重分析单元,用于利用正则匹配和固话区号匹配限制,分别得到电话和邮箱信息各自的初始权重;
第二初始权重分析单元,用于利用基于自然语言处理技术的算法和地域匹配权重,得到地址信息的初始权重;
第三初始权重分析单元,用于利用关键字定位和停用词,得到简要描述信息的初始权重;
第四初始权重分析单元,用于利用关键字定位、正在匹配和基于自然语言处理技术的算法,分别得到联系人名称、传真和职位信息各自的初始权重;
页面权重分析单元,用于利用关键字和PageRank算法、Hilltop算法、HITS算法或TrustRank算法,分析网页源码文本的页面可信度,得到页面权重;
权重计算单元,用于将页面权重与相对应的初始权重相加,得到网页特征信息的权重。
在本发明实施例的互联网大数据分析提取系统,还可以包括:
算法改变模块,用于在从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息前,接收算法改变请求,以改变算法。
摘要信息获取模块,用于得到正查数据后,利用网页特征信息在互联网上获取第一摘要信息集;
摘要信息筛选模块,用于从第一摘要信息集中筛选出完全包含网页特征信息和目标对象名称的摘要信息,得到第二摘要信息集;
摘要特征信息提取模块,用于从第二摘要信息集中的每份摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集。
第二权重筛选模块,用于从第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种互联网大数据分析提取方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种互联网大数据分析提取方法,其特征在于,包括:
获取目标对象的网页源码文本集;
从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重,得到第一特征信息集;
从所述第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
2.根据权利要求1所述的互联网大数据分析提取方法,其特征在于,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息的过程包括:
利用JSOUP分别对所述网页源码文本集中的每份网页源码文本进行解析,得到相对应的纯内容数据集,从所述纯内容数据集中的每份纯内容数据中提取出所述目标对象的网页特征信息。
3.根据权利要求2所述的互联网大数据分析提取方法,其特征在于,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重的过程包括:
从所述纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的权重;
从所述纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取所述目标对象的简要描述信息,并得到简要描述信息的权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的权重。
4.根据权利要求2所述的互联网大数据分析提取方法,其特征在于,所述从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,并分析出网页特征信息的权重的过程包括:
从所述纯内容数据集中的每份纯内容数据中,利用正则匹配和固话区号匹配限制,提取电话和邮箱信息,并分别得到电话和邮箱信息各自的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用基于自然语言处理技术的算法和地域匹配权重,提取地址信息,并得到地址信息的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位和停用词,提取所述目标对象的简要描述信息,并得到简要描述信息的初始权重;
从所述纯内容数据集中的每份纯内容数据中,利用关键字定位、正在匹配和基于自然语言处理技术的算法提取联系人名称、传真和职位信息,并分别得到联系人名称、传真和职位信息各自的初始权重;
计算与网页源码文本相对应的页面权重,将页面权重与相对应的初始权重相加,得到网页特征信息的权重。
5.根据权利要求4所述的互联网大数据分析提取方法,其特征在于,计算页面权重的过程包括:
利用关键字和PageRank算法、Hilltop算法、HITS算法或TrustRank算法,分析网页源码文本的页面可信度,得到页面权重。
6.根据权利要求3或4所述的互联网大数据分析提取方法,其特征在于,还包括:
在从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息前,接收算法改变请求,以改变算法。
7.根据权利要求1至5任一项所述的互联网大数据分析提取方法,其特征在于,还包括:
得到所述正查数据后,利用网页特征信息在互联网上获取第一摘要信息集;
从所述第一摘要信息集中筛选出完全包含网页特征信息和所述目标对象名称的摘要信息,得到第二摘要信息集;
从所述第二摘要信息集中的每份摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集;
从所述第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
8.根据权利要求7所述的互联网大数据分析提取方法,其特征在于,还包括:
得到所述正查数据和所述反查数据后,利用所述正查数据和所述反查数据进行撞库匹配,筛选出撞库数据。
9.一种互联网大数据分析提取系统,其特征在于,包括:
网页文本获取模块,用于获取目标对象的网页源码文本集;
网页特征信息提取模块,用于从所述网页源码文本集中的每份网页源码文本中提取出所述目标对象的网页特征信息,得到第一特征信息集;
网页特征信息权重分析模块,用于分析出网页特征信息的权重;
第一权重筛选模块,用于从所述第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息,得到正查数据。
10.根据权利要求9所述的互联网大数据分析提取系统,其特征在于,还包括:
摘要信息获取模块,用于得到所述正查数据后,利用网页特征信息在互联网上获取第一摘要信息集;
摘要信息筛选模块,用于从所述第一摘要信息集中筛选出完全包含网页特征信息和所述目标对象名称的摘要信息,得到第二摘要信息集;
摘要特征信息提取模块,用于从所述第二摘要信息集中的每份摘要信息中提取出摘要特征信息,并分析出摘要特征信息的权重,得到第二特征信息集;
第二权重筛选模块,用于从所述第二特征信息集中筛选出权重值高于第二预设权重的摘要特征信息,得到反查数据。
CN201611200311.8A 2016-12-22 2016-12-22 一种互联网大数据分析提取方法及系统 Active CN106776567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611200311.8A CN106776567B (zh) 2016-12-22 2016-12-22 一种互联网大数据分析提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611200311.8A CN106776567B (zh) 2016-12-22 2016-12-22 一种互联网大数据分析提取方法及系统

Publications (2)

Publication Number Publication Date
CN106776567A true CN106776567A (zh) 2017-05-31
CN106776567B CN106776567B (zh) 2020-05-15

Family

ID=58897296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611200311.8A Active CN106776567B (zh) 2016-12-22 2016-12-22 一种互联网大数据分析提取方法及系统

Country Status (1)

Country Link
CN (1) CN106776567B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391659A (zh) * 2017-07-18 2017-11-24 北京工业大学 一种基于信誉度的引文网络学术影响力评价排序方法
CN107886426A (zh) * 2017-10-29 2018-04-06 邵慕涵 融资处理系统及方法
CN108959452A (zh) * 2018-06-14 2018-12-07 阿里巴巴集团控股有限公司 一种摘要信息的确定方法、显示方法、及装置
CN109213983A (zh) * 2018-07-13 2019-01-15 北京圣康汇金科技有限公司 一种在线生成研报系统和方法
CN109408816A (zh) * 2018-10-10 2019-03-01 黄文隆 一种互联网数据分析用网络使用方法
CN109885744A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN110874427A (zh) * 2018-09-03 2020-03-10 菜鸟智能物流控股有限公司 网页信息爬取方法、装置、系统以及电子设备
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN116361362A (zh) * 2023-05-30 2023-06-30 江西顶易科技发展有限公司 一种基于网页内容识别的用户信息挖掘方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085468A1 (en) * 2002-07-18 2006-04-20 Xerox Corporation Method for automatic wrapper repair
CN102970348A (zh) * 2012-11-02 2013-03-13 北京奇虎科技有限公司 网络应用推送方法、系统和网络应用服务器
WO2015062416A1 (en) * 2013-10-28 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method and device for loading webpages based onuiwebview components
CN106066867A (zh) * 2016-05-27 2016-11-02 东软集团股份有限公司 一种提取摘要的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085468A1 (en) * 2002-07-18 2006-04-20 Xerox Corporation Method for automatic wrapper repair
CN102970348A (zh) * 2012-11-02 2013-03-13 北京奇虎科技有限公司 网络应用推送方法、系统和网络应用服务器
WO2015062416A1 (en) * 2013-10-28 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method and device for loading webpages based onuiwebview components
CN106066867A (zh) * 2016-05-27 2016-11-02 东软集团股份有限公司 一种提取摘要的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴剑峰: "大数据时代面向知识发现的网络信息提取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
李璐旸: "面向网络文本的信息可信度研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
江君: "基于网页内容的海量数据管理系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391659A (zh) * 2017-07-18 2017-11-24 北京工业大学 一种基于信誉度的引文网络学术影响力评价排序方法
CN107391659B (zh) * 2017-07-18 2020-05-22 北京工业大学 一种基于信誉度的引文网络学术影响力评价排序方法
CN107886426A (zh) * 2017-10-29 2018-04-06 邵慕涵 融资处理系统及方法
CN108959452A (zh) * 2018-06-14 2018-12-07 阿里巴巴集团控股有限公司 一种摘要信息的确定方法、显示方法、及装置
CN109213983A (zh) * 2018-07-13 2019-01-15 北京圣康汇金科技有限公司 一种在线生成研报系统和方法
CN110874427A (zh) * 2018-09-03 2020-03-10 菜鸟智能物流控股有限公司 网页信息爬取方法、装置、系统以及电子设备
CN109408816A (zh) * 2018-10-10 2019-03-01 黄文隆 一种互联网数据分析用网络使用方法
CN109885744A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN109885744B (zh) * 2019-01-07 2024-05-10 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN111737453B (zh) * 2020-05-29 2024-04-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN116361362A (zh) * 2023-05-30 2023-06-30 江西顶易科技发展有限公司 一种基于网页内容识别的用户信息挖掘方法与系统
CN116361362B (zh) * 2023-05-30 2023-08-11 江西顶易科技发展有限公司 一种基于网页内容识别的用户信息挖掘方法与系统

Also Published As

Publication number Publication date
CN106776567B (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN106776567A (zh) 一种互联网大数据分析提取方法及系统
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN104951539B (zh) 互联网数据中心有害信息监测系统
CN101035128B (zh) 基于中文标点符号的三重网页文本内容识别及过滤方法
CN102279851B (zh) 一种智能导航方法、装置和系统
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN106777043A (zh) 一种基于lda的学术资源获取方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN110134849A (zh) 一种网络舆情监控方法及系统
CN104021125B (zh) 一种搜索引擎排序的方法、系统以及一种搜索引擎
CN101751458A (zh) 一种网络舆情监控系统及方法
CN112765366A (zh) 基于知识图谱的apt组织画像构建方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103744954B (zh) 一种词关联网模型的构建方法及其构建器
CN103389998A (zh) 一种基于云服务的新型互联网商业情报语义分析技术
CN104899229A (zh) 基于群体智能的行为聚类系统
CN102693304A (zh) 一种搜索引擎的反馈信息处理方法及搜索引擎
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN111753171A (zh) 一种恶意网站的识别方法和装置
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant