CN110874680A - 一种企业信息数据的采集与处理的方法和装置 - Google Patents

一种企业信息数据的采集与处理的方法和装置 Download PDF

Info

Publication number
CN110874680A
CN110874680A CN201811018896.0A CN201811018896A CN110874680A CN 110874680 A CN110874680 A CN 110874680A CN 201811018896 A CN201811018896 A CN 201811018896A CN 110874680 A CN110874680 A CN 110874680A
Authority
CN
China
Prior art keywords
webpage
website
characteristic
html code
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811018896.0A
Other languages
English (en)
Inventor
沈立顶
宋京
刘哲
胡伦良
王旭辉
张海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Original Assignee
Potevio Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potevio Information Technology Co Ltd filed Critical Potevio Information Technology Co Ltd
Priority to CN201811018896.0A priority Critical patent/CN110874680A/zh
Publication of CN110874680A publication Critical patent/CN110874680A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种企业信息数据的采集与处理的方法和装置,其中方法包括:对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页;利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。采用本发明,有利于确保企业评估数据的准确性。

Description

一种企业信息数据的采集与处理的方法和装置
技术领域
本发明涉及数据处理技术,特别是涉及一种企业信息数据的采集与处理的方法和装置。
背景技术
目前,科技园区内的孵化器管理较为简单,只实现了对基本职能的信息化工作。对于入驻孵化器的小微企业的评估,由专家根据经验结合企业的实际运营信息,对企业的各种评估指标进行评分,得到相应的企业价值评估结果。
上述现有的企业评估方法中,由于由专家是通过经验进行评估,使得所得到的评估结果具有一定的主观性,从而无法确保评估的准确性。另外,也无法对企业价值进行有效跟踪管理,也无法对孵化器自身的孵化效果进行量化管理。
发明内容
有鉴于此,本发明的主要目的在于提供一种企业信息数据的采集与处理的方法和装置,有利于确保企业评估数据的准确性。
为了达到上述目的,本发明提出的技术方案为:
一种企业信息数据的采集与处理的方法,包括:
对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页;
利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
较佳地,所述对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码包括:
a1、根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码;
a2、当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中;
a3、如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中;
a4、如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤a1。
较佳地,对每个所述网页对应的HTML代码进行分析处理包括:
对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值,根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
较佳地,所述判断经过所述清除的特征值是否满足预设的精度要求包括:
对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
较佳地,所述根据所述有用特征值计算得到相应的评估数据包括:
按照
Figure BDA0001786827000000031
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure BDA0001786827000000032
一种企业信息数据的采集与处理的装置,包括:
数据采集处理模块,用于对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页;
评估模块,用于利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
较佳地,所述数据采集处理模块包括:
请求单元,用于根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码;
网页文件创建单元,用于当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中;
网址集合更新单元,用于如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中;
待抓取网址更新单元,用于如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤a1。
较佳地,所述数据采集处理模块包括:
代码分析单元,用于对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值,根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
较佳地,所述代码分析单元,用于对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
较佳地,所述根评估模块,用于按照
Figure BDA0001786827000000041
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure BDA0001786827000000042
综上所述,本发明提出的企业信息数据的采集与处理的方法和装置,利用网络爬虫技术,爬取与被评估企业相关联的网络数据,根据预设的特征参数对爬取到的数据进行分类清洗后,获得相应的有效特征值,再利用预设的评估模型,基于有效特征值对得出企业的评估数据。如此,通过利用从网页上获取的能反映企业客观情况的特征数据,按照预设的评估模型,采用定量评估的方式对企业进行评估,可以确保评估数据的准确性。
附图说明
图1为本发明实施例的方法流程示意图;
图2为图1步骤101中的HTML代码抓取流程示意图;
图3为本发明实施例的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:通过网络爬虫技术爬取与被评估企业相关联的最新网络数据,对爬取到的数据进行分类清洗后,再利用预设的评估模型,为目标企业得出实时的评估数据,如此,通过从网页上抓取能反映企业客观情况的特征数据,利用这些数据按照预设的评估模型,对企业进行评估,从而可以提高评估的准确性。
图1为本发明实施例的企业信息数据的采集与处理方法流程示意图,如图1所示,该实施例主要包括:
步骤101、对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页。
本步骤中,需要基于预设的信息采集目标网址集合中的每个网址,获取相应的网页HTML代码,为确保数据获取的全面性,该网页HTML代码将包括主网页和主网页下的所有子网页的HTML代码。
所述信息采集目标网址集合可由本领域技术人员根据实际需要进行设置,该集合中将包括能提供企业特征数据的第三方网站的网址。
所述特征参数具体可由本领域技术人员根据实际应用中能够反映企业价值的参数进行设置。
较佳地,如图2所示,可以采用下述方法抓取目标网址所对应网页的HTML代码:
步骤1011、根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码。
步骤1012、当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中。
步骤1013、如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中。
本步骤中,如果网页服务器返回的HTML代码中包含子网页的网址,则为了避免网页HTML代码的重复下载,需要先将其中重复的网址进行删除,如果子网页的网址不在当前的信息采集目标网址集合中,则可以将其增加至信息采集目标网址集合中,以便在后续步骤中进一步下载其网页HTML代码。
步骤1014、如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤1011。
本步骤中,如果信息采集目标网址集合中还有未进行HTML代码抓取的网址,则需要取出一个,返回步骤1011执行相应的HTML代码抓取,直到信息采集目标网址集合中所有网址对应的HTML代码均已被抓取。
较佳地,对于每个所述网页对应的HTML代码,可以采用下述方法进行分析处理:
对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值;
根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
上述无效特征值指的是不在对应特征参数正常取值范围内的特征值。
上述方法中,为了提高用于进行评估的特征数据的准确性,需要对提取出的特征值进行有效性的筛选,筛选出能够满足预设精度要求的特征值进行估计。
较佳地,可以采用下述方法判断经过所述清除的特征值是否满足预设的精度要求:
对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
步骤102、利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
本步骤,所述评估模型可以采用现有的评估模型实现。
较佳地,可以采用预设的权重系数进行综合评估的方式,根据所述有用特征值计算得到相应的评估数据:
按照
Figure BDA0001786827000000071
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure BDA0001786827000000072
上述方法中,每个特征参数的权重可由本领域技术人员根据实际需要进行设置合适的取值,只要满足
Figure BDA0001786827000000073
即可。
上述方法中选择了基于权重的评估模型,在实际应用中并不限于此,具体可由本领域技术人员根据实际的评估需要选择合适的评估模型。
图3为与上述方法相对应的企业信息数据的采集与处理装置结构示意图,如图3该装置包括:
数据采集处理模块,用于对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页。
评估模块,用于利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
较佳地,所述数据采集处理模块具体可以包括下述单元:
请求单元,用于根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码;
网页文件创建单元,用于当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中;
网址集合更新单元,用于如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中;
待抓取网址更新单元,用于如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤a1。
较佳地,所述数据采集处理模块包括:
代码分析单元,用于对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值,根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
较佳地,所述代码分析单元,用于对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
较佳地,所述根评估模块,用于按照
Figure BDA0001786827000000091
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure BDA0001786827000000092
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种企业信息数据的采集与处理的方法,其特征在于,包括:
对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页;
利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
2.根据权利要求1所述的方法,其特征在于,所述对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码包括:
a1、根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码;
a2、当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中;
a3、如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中;
a4、如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤a1。
3.根据权利要求1所述的方法,其特征在于,对每个所述网页对应的HTML代码进行分析处理包括:
对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值,根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
4.根据权利要求1所述的方法,其特征在于,所述判断经过所述清除的特征值是否满足预设的精度要求包括:
对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
5.根据权利要求1所述的方法,其特征在于,所述根据所述有用特征值计算得到相应的评估数据包括:
按照
Figure FDA0001786826990000021
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure FDA0001786826990000022
6.一种企业信息数据的采集与处理的装置,其特征在于,包括:
数据采集处理模块,用于对于预设的信息采集目标网址集合中的每个目标网址,利用网络爬虫工具,抓取该目标网址所对应网页的HTML代码,并根据预设的特征参数,对每个所述网页对应的HTML代码进行分析处理,得到相应的有用特征值并保存;所述网页包括主网页以及主网页下的所有子网页;
评估模块,用于利用预设的评估模型,根据所述有用特征值计算得到相应的评估数据。
7.根据权利要求6所述的装置,其特征在于,所述数据采集处理模块包括:
请求单元,用于根据待抓取HTML代码的网址,向该地址对应的网页服务器,请求下载相应网页的HTML代码;
网页文件创建单元,用于当所述请求成功时,将所述网页服务器返回的HTML代码,保存在相应目标网址对应网页文件中;
网址集合更新单元,用于如果所述网页服务器返回的HTML代码中包含子网页的网址,则对所述子网页的网址进行重复网址去除处理;对于经过去除处理后得到的每个网址,如果该网址不在所述信息采集目标网址集合中,则将其加入到所述信息采集目标网址集合中;
待抓取网址更新单元,用于如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址,则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址,作为当前待抓取HTML代码的网址,返回步骤a1。
8.根据权利要求6所述的装置,其特征在于,所述数据采集处理模块包括:
代码分析单元,用于对于每个所述网页,从该网页对应的HTML代码中,提取出所述特征参数对应的特征值,清除其中的无效特征值,根据所述无效特征值的数量,判断经过所述清除的特征值是否满足预设的精度要求,如果是,则利用网络爬虫工具的决策树模型,对经过所述清除的特征值进行特征分类,并保存相应的分类结果数据。
9.根据权利要求6所述的装置,其特征在于,所述代码分析单元,用于对于每个所述网页,计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例;如果该比例小于预设阈值,则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求,否则,判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。
10.根据权利要求6所述的装置,其特征在于,所述根评估模块,用于按照
Figure FDA0001786826990000031
计算得到相应的评估数据A;其中,i为特征参数编号,Vi为特征参数i的有用特征值,wi为预设的特征参数i的权重,n为特征参数的数量,
Figure FDA0001786826990000041
CN201811018896.0A 2018-09-03 2018-09-03 一种企业信息数据的采集与处理的方法和装置 Withdrawn CN110874680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811018896.0A CN110874680A (zh) 2018-09-03 2018-09-03 一种企业信息数据的采集与处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811018896.0A CN110874680A (zh) 2018-09-03 2018-09-03 一种企业信息数据的采集与处理的方法和装置

Publications (1)

Publication Number Publication Date
CN110874680A true CN110874680A (zh) 2020-03-10

Family

ID=69716545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811018896.0A Withdrawn CN110874680A (zh) 2018-09-03 2018-09-03 一种企业信息数据的采集与处理的方法和装置

Country Status (1)

Country Link
CN (1) CN110874680A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
JP7504393B2 (ja) 2020-08-28 2024-06-24 会計バンク株式会社 調査情報処理装置、調査情報処理装置の制御方法、調査情報処理装置の制御プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763602A (zh) * 2010-01-07 2010-06-30 云南新材料孵化器有限公司 企业动态管理诊断系统
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
US20170053031A1 (en) * 2014-06-25 2017-02-23 South China University Of Technology Information forecast and acquisition method based on webpage link parameter analysis
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN108228656A (zh) * 2016-12-21 2018-06-29 普天信息技术有限公司 基于cart决策树的url分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763602A (zh) * 2010-01-07 2010-06-30 云南新材料孵化器有限公司 企业动态管理诊断系统
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
US20170053031A1 (en) * 2014-06-25 2017-02-23 South China University Of Technology Information forecast and acquisition method based on webpage link parameter analysis
CN108228656A (zh) * 2016-12-21 2018-06-29 普天信息技术有限公司 基于cart决策树的url分类方法及装置
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7504393B2 (ja) 2020-08-28 2024-06-24 会計バンク株式会社 調査情報処理装置、調査情報処理装置の制御方法、調査情報処理装置の制御プログラム
CN113190779A (zh) * 2021-05-08 2021-07-30 北京百度网讯科技有限公司 网页评估方法和装置
CN113190779B (zh) * 2021-05-08 2023-07-28 北京百度网讯科技有限公司 网页评估方法和装置

Similar Documents

Publication Publication Date Title
CN111565171B (zh) 异常数据的检测方法、装置、电子设备及存储介质
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
CN103559259A (zh) 基于云平台的消除近似重复网页方法
CN107844595B (zh) 一种求职网站职位智能推荐方法
US20200394318A1 (en) Privacy trustworthiness based api access
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN111600894A (zh) 一种网络攻击检测方法及装置
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
KR20070003495A (ko) 유해 사이트 수집 장치 및 그 방법
CN110874680A (zh) 一种企业信息数据的采集与处理的方法和装置
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
CN111382385B (zh) 网页所属行业分类方法及装置
EP3082090A1 (en) Method for determining a user profile in relation to certain web content
CN107404497A (zh) 一种在海量日志中检测WebShell的方法
CN202075736U (zh) 一种搜索引擎抓取服务器
CN101908047B (zh) 无效模板生成方法及装置、无效网页识别方法及装置
CN111581199B (zh) 一种智能数据分析系统及方法
CN115795207A (zh) 涉诈网站自动识别方法及系统
CN107438053B (zh) 域名识别方法、装置及服务器
CN111314161B (zh) 一种流量识别方法和装置
CN111353803B (zh) 广告主分类方法及装置、计算设备
CN114492576A (zh) 一种异常用户检测方法、系统、存储介质及电子设备
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200310

WW01 Invention patent application withdrawn after publication