CN111680203B - 数据采集方法、装置和电子设备 - Google Patents

数据采集方法、装置和电子设备 Download PDF

Info

Publication number
CN111680203B
CN111680203B CN202010378074.4A CN202010378074A CN111680203B CN 111680203 B CN111680203 B CN 111680203B CN 202010378074 A CN202010378074 A CN 202010378074A CN 111680203 B CN111680203 B CN 111680203B
Authority
CN
China
Prior art keywords
data
value
acquisition
identifier
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010378074.4A
Other languages
English (en)
Other versions
CN111680203A (zh
Inventor
朱标
章鹏
崔阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010378074.4A priority Critical patent/CN111680203B/zh
Publication of CN111680203A publication Critical patent/CN111680203A/zh
Application granted granted Critical
Publication of CN111680203B publication Critical patent/CN111680203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书实施例公开了一种数据采集方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足预设条件:根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;根据选取的第一数据所对应的数据标识,利用精采集方式采集第二数据;根据选取的第一数据,获取数据标识对应的特征数据;根据采集的第二数据,确定数据标识对应的标签;根据标签和特征数据,对所述价值预测模型进行训练。本说明书实施例的数据采集方法、装置和电子设备,可以节省数据的采集成本。

Description

数据采集方法、装置和电子设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种数据采集方法、装置和电子设备。
背景技术
在一些场景下,需要采集数据以供业务模型使用。例如,需要从互联网中采集页面数据,将采集的页面数据提供给风险识别模型,以识别企业的金融风险。
如何节省数据的采集成本,是当前亟需解决的技术问题。
发明内容
本说明书实施例提供一种数据采集方法、装置和电子设备,以节省数据的采集成本。本说明书实施例的技术方案如下。
本说明书实施例的第一方面,提供了一种数据采集方法,包括:利用以下步骤进行迭代处理,直至满足预设条件:根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;根据选取的第一数据所对应的数据标识,利用精采集方式采集第二数据;根据选取的第一数据,获取数据标识对应的特征数据;根据采集的第二数据,确定数据标识对应的标签;根据标签和特征数据,对所述价值预测模型进行训练。
本说明书实施例的第二方面,提供了一种数据采集装置,包括:迭代模块,用于利用以下子模块进行迭代处理,直至满足预设条件:选取子模块,用于根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;采集子模块,用于根据选取第一数据所对应的数据标识,利用精采集方式采集第二数据;获取子模块,用于根据选取的第一数据,获取数据标识对应的特征数据;确定子模块,用于根据采集的第二数据,确定数据标识对应的标签;训练子模块,用于根据标签和特征数据,对所述价值预测模型进行训练。
本说明书实施例的第三方面,提供了一种电子设备,包括:至少一个处理器;存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面所述方法的指令。
本说明书实施例提供的技术方案,相较于粗采集方式,精采集方式消耗计算机资源较多,采集数据的速度较慢,使得采集成本较高,但所获得的数据包含的信息较多。本说明书实施例通过价值预测模型,可以在尽可能节省采集成本的条件下,利用精采集方式采集第二数据。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中数据采集方法的流程示意图;
图2为本说明书实施例中数据采集过程的示意图;
图3为本说明书实施例中数据采集装置的结构示意图;
图4为本说明书实施例中电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在相关技术中,数据的采集方式可以包括粗采集方式和精采集方式。粗采集方式消耗计算机资源较少,采集数据的速度较快,使得采集成本较低,但所获得的数据包含的信息较少,使得业务模型的预测准确性较低。精采集方式消耗计算机资源较多,采集数据的速度较慢,使得采集成本较高,但所获得的数据包含的信息较多,使得业务模型的预测准确性较高。因而需要在预测准确性和采集成本之间进行权衡。
为此本说明书提供一种数据采集方法的实施例。所述数据采集方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群或部署在云端的服务器。
请参阅图1和图2。所述数据采集方法包括以下步骤。
步骤S102:根据价值预测模型,从第一数据集中选取第一数据。
在一些实施例中,所述第一数据集可以包括至少一个第一数据。所述第一数据可以对应有数据标识、且由粗采集方式根据数据标识采集得到。依据应用场景的不同,所述数据标识、所述粗采集方式、以及所述第一数据可以不同。以网页数据爬取场景为例,所述数据标识可以包括网页标识(例如网址等),所述粗采集方式可以包括静态页面方式,所述第一数据可以包括通过静态页面方式爬取到的页面数据(例如html页面数据等)。
此外,所述数据标识还可以对应有业务对象。所述数据标识所标识的数据(例如第一数据和/或第二数据)可以来自所述业务对象。所述业务对象可以包括个人、企业等。
在实际应用中,所述服务器可以根据至少一个数据标识,利用粗采集方式采集至少一个第一数据,作为第一数据集中的第一数据。以网页数据爬取场景为例,所述服务器可以根据1万个网址,通过静态页面方式爬取1万个页面数据,作为第一数据集中的第一数据。
在一些实施例中,所述价值预测模型可以用于对第一数据的精采集价值进行预测。所述价值预测模型包括但不限于决策树模型、逻辑回归模型、XGBoost(eXtremeGradient Boosting)模型、神经网络模型、随机森林模型等。在实际应用中,所述服务器可以利用价值预测模型,对所述第一数据集中的第一数据进行预测,得到第一数据的精采集价值;可以根据精采集价值,从所述第一数据集中选取至少一个第一数据。
所述服务器可以对所述第一数据集中的全部第一数据进行预测。或者,所述服务器还可以对所述第一数据集中的部分第一数据进行预测。此外,所述服务器可以直接将第一数据输入至价值预测模型,以对第一数据进行预测。或者,所述服务器还可以获取第一数据的特征数据;可以将特征数据输入至价值预测模型,以对第一数据进行预测。所述特征数据能够反映第一数据的特征。所述服务器具体可以采用特征工程的方式,获得第一数据的特征数据。
所述精采集价值可以包括分值,例如可以为1、4、或10等。当然,所述精采集价值还可以包括其它的形式,例如字符。选取的第一数据可以包括在所述第一数据集中精采集价值较大的第一数据。具体地,所述服务器可以从所述第一数据集中选取精采集价值满足某一预设条件的第一数据。例如,所述精采集价值可以为分值。所述服务器可以从所述第一数据集中选取分值大于或等于某一阈值的第一数据。或者,所述服务器还可以从所述第一数据集中选取分值较大的至少一个第一数据。例如,所述第一数据集可以包括1万个第一数据。所述服务器可以从所述第一数据集中选取分值较大的100个第一数据。
在一些实施例中,所述服务器还可以将选取的第一数据从所述第一数据集中删除。这样所述服务器可以实现从所述第一数据集中不放回地选取第一数据,从而避免下次从所述第一数据集中选取出相同的第一数据。
步骤S104:根据选取的第一数据所对应的数据标识,利用精采集方式采集第二数据。
在一些实施例中,相较于粗采集方式,精采集方式消耗计算机资源较多,采集数据的速度较慢,使得采集成本较高,但所获得的数据包含的信息较多。依据应用场景的不同,所述精采集方式、以及所述第二数据可以不同。以网页数据爬取场景为例,所述精采集方式可以包括动态渲染页面方式,所述第二数据可以包括通过动态渲染页面方式爬取到的页面数据。动态渲染页面的方式,能够模拟浏览器的运行方式爬取页面数据。相较于通过静态页面方式爬取到的页面数据,通过动态渲染页面方式爬取到的页面数据,包含了动态加载的图片和脚本的运行结果等,更接近于用户看到的页面。
在一些实施例中,考虑到选取的第一数据包括在所述第一数据集中精采集价值较大的第一数据,所述服务器可以根据选取的第一数据所对应的数据标识(为便于描述,以下称为目标数据标识),利用精采集方式采集第二数据,实现有选择地根据部分数据标识进行精采集。
如前面所述,所述服务器可以从第一数据集中选取至少一个第一数据,选取的每个第一数据对应有目标数据标识。所述服务器可以根据至少一个目标数据标识,利用精采集方式采集至少一个第二数据。使得目标数据标识可以同时对应有第一数据和第二数据。进一步地,所述服务器还可以将采集的第二数据添加至第二数据集,实现对采集的第二数据进行汇总。
步骤S106:根据选取的第一数据,获取目标数据标识对应的特征数据。
在一些实施例中,为了提高预测效果,需要对所述价值预测模型进行训练。为此所述服务器可以根据选取的第一数据,确定目标数据标识对应的特征数据。
在一些实施例中,如前面所述,所述服务器可以从所述第一数据集中选取至少一个第一数据,选取的每个第一数据对应有目标数据标识。针对每个目标数据标识,所述服务器可以从选取的第一数据中提取特征数据,作为该目标数据标识对应的第一类型的特征数据。依据应用场景的不同,第一类型的特征数据可以不同。以网页数据爬取场景为例,第一类型的特征数据可以包括以下至少之一:网页数据中文本的长度、网页数据中图片链接的数量、网页数据的域名后缀、网页数据的域名混乱度、网页数据的域名注册时间、网页数据的域名到期时间、网页数据的服务器是否在境内等。
在一些实施例中,针对每个目标数据标识,所述服务器还可以获取该目标数据标识所对应业务对象的属性数据,作为该目标数据标识对应的第二类型的特征数据。使得目标数据标识对应的特征数据可以包括第一类型的特征数据和第二类型的特征数据。这样可以获得目标数据标识的多种类型的特征数据,有利于提高价值预测模型训练效果。依据应用场景的不同,第二类型的特征数据可以不同。以网页数据爬取场景为例,第二类型的特征数据可以包括以下至少之一:企业实力数据、企业风险数据等。进一步地,所述企业实力数据可以包括以下至少之一:注册资本数、员工数、是否为国企等。所述企业风险数据可以包括以下至少之一:涉诉次数、被法院执行次数、亏损金额等。
例如,所述服务器可以从所述第一数据集中选取第一数据data-a1、data-a2、data-a3。第一数据data-a1可以对应有目标数据标识id1,第一数据data-a2可以对应有目标数据标识id2,第一数据data-a3可以对应有目标数据标识id3。所述服务器可以从第一数据data-a1中提取特征数据,作为目标数据标识id1的第一类型的特征数据;可以获取目标数据标识id1所对应业务对象的属性数据,作为目标数据标识id1的第二类型的特征数据。同理,所述服务器可以从第一数据data-a2中提取特征数据,作为目标数据标识id2的第一类型的特征数据;可以获取目标数据标识id2所对应业务对象的属性数据,作为目标数据标识id2的第二类型的特征数据。同理,所述服务器可以从第一数据data-a3中提取特征数据,作为目标数据标识id3的第一类型的特征数据;可以获取目标数据标识id3所对应业务对象的属性数据,作为目标数据标识id3的第二类型的特征数据。
步骤S108:根据采集的第二数据,确定目标数据标识对应的标签。
在一些实施例中,为了提高预测效果,需要对所述价值预测模型进行训练。为此所述服务器可以根据采集的第二数据,确定目标数据标识对应的标签。所述标签可以用于标识目标数据标识的类型。所述标签可以包括两种类型。例如,所述标签可以包括正标签和负标签。当然所述标签还可以包括三种或三种以上的类型。
在一些实施例中,如前面所述,所述服务器可以获取至少一个第二数据,获取的每个第二数据对应有目标数据标识。针对每个目标数据标识,所述服务器可以根据采集的第二数据,确定该目标数据标识对应的标签。
在本实施例的一些实施方式中,第二数据是由精采集方式采集得到的,第一数据是由粗采集方式采集得到的,使得第二数据包含的信息较第一数据多。针对每个目标数据标识,所述服务器可以计算该目标数据标识所对应的第二数据相对于该目标数据标识所对应的第一数据的信息增益,作为该目标数据标识的信息增益;可以根据该目标数据标识的信息增益,确定该目标数据标识对应的标签。依据应用场景的不同,所述信息增益可以不同。以网页数据爬取场景为例,所述第一数据可以包括通过静态页面方式爬取到的页面数据,所述第二数据可以包括通过动态渲染页面方式爬取到的页面数据。所述信息增益可以包括以下至少之一:第二数据中字符数量和第一数据中字符数量的差值、第二数据中关键词数量和第一数据中关键词数量的差值、第二数据中主题数量和第一数据中主题数量的差值等。
所述标签可以包括两种类型。当目数据标识的信息增益满足某一条件时,所述服务器可以为该目标数据标识分配一种类型的标签;当该目数据标识的信息增益不满足该条件时,所述服务器可以为该目标数据标识分配另一种类型的标签。例如,当目数据标识的信息增益大于或等于某一阈值时,所述服务器可以为该目标数据标识分配正标签;当该目数据标识的信息增益小于该阈值时,所述服务器可以为该目标数据标识分配负标签。当然,所述服务器还可以采用其它方式确定目标数据标识对应的标签。例如,所述服务器可以从目标数据标识集中选取信息增益较大的至少一个目标数据标识;可以为选取的目标数据标识分配一种类型的标签;可以为剩余的目标数据标识分配另一种类型的标签。此处,所述目标数据标识集可以由选取的第一数据所对应的目标数据标识构成。
当然,所述标签还可以包括三种或三种以上的类型。所述标签包括三种或三种以上类型时的标签确定过程,可以与所述标签包括两种类型时的标签确定过程相类似,此处不再赘述。
在本实施例的另一些实施方式中,针对每个目标数据标识,所述服务器可以利用业务模型获取第二数据的业务价值;可以根据业务价值确定该目标数据标识对应的标签。此处,所述业务模型可以包括在业务运行过程中使用的模型,例如风险识别模型。
所述业务价值可以包括所述业务模型的输出(例如分值等)。或者,所述业务价值还可以通过对业务模型的输出进行分析获得。例如,所述业务模型可以包括风险识别模型,所述风险识别模型的数量为多个。所述服务器可以利用多个风险识别模型分别对第二数据进行预测,得到多个预测结果。每个预测结果对应一种风险种类,用于表示第二数据是否具有该风险种类下的风险。那么,所述业务价值可以包括第二数据所具有的风险种类数。
值得说明的是,所述服务器根据业务价值确定标签的过程,与根据信息增益确定标签的过程相类似,此处不再赘述。
在本实施例的另一些实施方式中,针对每个目标数据标识,所述服务器可以计算第二数据相对于第一数据的信息增益,作为该目标数据标识对应的信息增益;可以利用业务模型获取第二数据的业务价值,作为该目标数据标识对应的业务价值;可以根据信息增益和业务价值,确定该目标数据标识对应的标签。这样综合考虑了信息增益和业务价值,有利于更加准确地确定目标数据标识的标签,从而有利于提高价值预测模型的训练效果。
所述服务器计算信息增益的过程,可以参见前面的实施方式。同理,所述服务器获取业务价值的过程,也可以参见前面的实施方式。所述服务器可以根据信息增益和业务价值,计算目标数据标识的复合价值;可以根据复合价值,确定目标数据标识对应的标签。所述服务器可以将信息增益和业务价值相加,得到目标数据标识的复合价值。当然,所述服务器还可以采用其它方式计算目标数据标识的复合价值。例如,所述服务器可以将信息增益与第一权重相乘,得到复合价值的第一分量;可以将业务价值与第二权重相乘,得到复合价值的第二分量;可以将复合价值的第一分量和复合价值的第二分量相加,得到目标数据标识的复合价值。值得说明的是,所述服务器根据复合价值确定标签的过程,与根据信息增益确定标签的过程相类似,此处不再赘述。
例如,所述服务器可以从所述第一数据集中选取第一数据data-a1、data-a2、data-a3。第一数据data-a1可以对应有目标数据标识id1,第一数据data-a2可以对应有目标数据标识id2,第一数据data-a3可以对应有目标数据标识id3。所述服务器可以根据目标数据标识id1获取第二数据data-b1;可以根据目标数据标识id2获取第二数据data-b2;可以根据目标数据标识id3获取第二数据data-b3。
所述服务器可以计算第二数据data-b1相对于第一数据data-a1的信息增益,作为目标数据标识id1对应的信息增益;可以利用业务模型获取第二数据data-b1的业务价值,作为目标数据标识id1对应的业务价值;可以根据信息增益和业务价值,确定目标数据标识id1对应的标签。同理,所述服务器可以计算第二数据data-b2相对于第一数据data-a2的信息增益,作为目标数据标识id2对应的信息增益;可以利用业务模型获取第二数据data-b2的业务价值,作为目标数据标识id2对应的业务价值;可以根据信息增益和业务价值,确定目标数据标识id2对应的标签。同理,所述服务器可以计算第二数据data-b3相对于第一数据data-a3的信息增益,作为目标数据标识id3对应的信息增益;可以利用业务模型获取第二数据data-b3的业务价值,作为目标数据标识id3对应的业务价值;可以根据信息增益和业务价值,确定目标数据标识id3对应的标签。
步骤S110:根据标签和特征数据,对所述价值预测模型进行训练。
在一些实施例中,对应同一目标数据标识的标签和特征数据可以视作一个训练样本。所述服务器可以根据至少一个训练样本,对所述价值预测模型进行训练。
其中,所述特征数据可以包括第一类型的特征数据。或者,所述特征数据还可以同时包括第一类型的特征数据和第二类型的特征数据。
步骤S112:判断是否满足预设条件。
在一些实施例中,所述预设条件可以根据实际需要设定。例如,所述预设条件可以包括采集的第二数据的数量达到某一阈值。或者,所述预设条件还可以包括所述数据采集方法在时间区间内的迭代次数达到某一阈值。所述时间区间的长度可以根据实际需要灵活设定,例如可以为10天或1个月等。具体地,例如,所述预设条件可以包括所述数据采集方法在当前月份的迭代次数达到3次。
在一些实施例中,若不满足预设条件,所述服务器可以返回执行步骤S102。若满足预设条件,所述服务器可以结束数据采集过程。这样通过迭代过程,所述服务器可以利用精采集方式采集第二数据。采集的第二数据可以在后续过程供业务模型使用。例如,所述业务模型可以包括风险识别模型,可以利用所述风险识别模型对采集的第二数据进行风险识别。又例如,还可以利用采集的第二数据对业务模型进行训练。
在一些实施例中,所述数据采集方式可以适用于多种应用场景。为此所述服务器可以确定应用场景;可以根据至少一个数据标识,利用所述应用场景下的粗采集方式采集至少一个第一数据,作为第一数据集中的第一数据;可以根据价值预测模型,从第一数据集中选取第一数据;可以根据选取的第一数据对应的数据标识,利用所述应用场景下的精采集方式采集第二数据;可以根据选取的第一数据,获取目标数据标识对应的特征数据;可以根据采集的第二数据,确定目标数据标识对应的标签;可以根据标签和特征数据,对所述价值预测模型进行训练。所述服务器可以利用以上步骤进行迭代处理,直至满足预设条件。
所述应用场景可以是开发人员在所述服务器中输入的。当然,所述服务器还可以采用其它方式确定应用场景,本实施例对此不做具体限定。
在一些实施例中,所述服务器还可以对至少一个第一数据的精采集价值进行修正;可以根据修正后的精采集价值,从所述第一数据集中选取第一数据。
考虑到所述第一数据集中第一数据的时效性,对于所述第一数据集中采集时间较早的第一数据(例如早于某一时刻的第一数据),所述服务器可以对该第一数据的精采集价值进行修正,以提高该第一数据被选中的可能性。对于所述第一数据集中采集时间较晚的第一数据(例如晚于某一时刻的第一数据),所述服务器可以对该第一数据的精采集价值进行修正,以降低该第一数据被选中的可能性。例如,所述精采集价值可以为分值。对于采集时间较早的第一数据,所述服务器可以对该第一数据的分值乘以一个大于1的系数。对于采集时间较晚的第一数据,所述服务器可以对该第一数据的分值乘以一个小于1的系数。
或者,考虑到价值预测模型是根据选取的第一数据进行训练的(为了便于描述,以下称为特定数据),使得价值预测模型会优先从所述第一数据集中选取与所述特定数据相似程度较高的第一数据。这样有可能造成所述第一数据集中一部分精采集价值较大的第一数据(例如精采集价值较大、但与所述特定数据相似程度较低的第一数据)没有机会被选取到。为此所述服务器可以对所述第一数据集中部分第一数据的精采集价值进行修正。例如,所述精采集价值可以为分值。所述服务器可以将所述第一数据集中部分第一数据的分值乘以一个大于1的系数。在实际应用中,所述服务器可以随机从所述第一数据集中选取部分第一数据,从而对部分第一数据的精采集价值进行修正。当然,所述服务器还可以采用其它方式从所述第一数据集中选取部分第一数据,从而对部分第一数据的精采集价值进行修正。
在一些实施例中,需要说明的是,虽然本说明书实施例提供了上文所述的方法步骤,但基于常规或者无需创造性的劳动在所述数据采集方法中还可以包括更多或者更少的方法步骤。另外,在逻辑性上不存在必要因果关系的方法步骤中,这些方法步骤的执行顺序并不限于本说明书实施例中的执行顺序。例如,在一些情况下,可以优先执行步骤S102-步骤S104多次,然后再执行步骤S106-步骤S112。
在一些实施例中,需要说明的是,在步骤S102之前,所述数据采集方法还可以包括对所述价值预测模型进行预先训练的步骤。具体地,所述服务器可以获取一个或多个第一数据作为种子数据;可以从种子数据中提取特征数据;可以为种子数据分配标签;可以根据种子数据的特征数据和标签,对所述价值预测模型进行预先训练。
本说明书实施例的数据采集方法,相较于粗采集方式,精采集方式消耗计算机资源较多,采集数据的速度较慢,使得采集成本较高,但所获得的数据包含的信息较多。本说明书实施例通过价值预测模型,可以在尽可能节省采集成本的条件下,利用精采集方式采集第二数据。
以下介绍本说明书实施例的一个应用场景示例。
在金融风控领域,需要识别企业的金融风险。为此可以全面地采集互联网公开的页面数据,根据采集的页面数据来识别企业的金融风险。通过静态页面方式来爬取页面数据,节省计算机资源,爬取页面数据的速度较快,但所爬取到的页面数据包含的信息较少,不利用准确地识别企业的金融风险。通过动态渲染页面方式来爬取页面数据,耗费计算机资源,爬取页面数据的速度较慢,但所爬取到的页面数据包含的信息较多,有利用准确地识别企业的金融风险。这就需要在识别准确性和数据采集成本之间进行权衡。
为此可以根据至少一个网址,通过静态页面方式爬取至少一个页面数据,作为第一数据集中的第一数据;可以根据价值预测模型,从第一数据集中选取第一数据;可以根据选取的第一数据对应的网址,通过动态渲染页面方式来爬取页面数据,作为第二数据集中的第二数据;可以将选取的第一数据所对应的网址作为目标网址;可以根据选取的第一数据,获取目标网站对应的特征数据;可以根据采集的第二数据,确定目标网址对应的标签;可以根据标签和特征数据,对所述价值预测模型进行训练。可以利用以上步骤进行迭代处理,直至满足预设条件。这样可以在尽可能节省计算机资源的条件下,通过动态渲染页面方式爬取到页面数据,以便于识别企业的金融风险。
请参阅图3。本说明书还提供数据采集装置的一个实施例。
所述数据采集装置可以包括以下模块单元。
迭代模块32,用于利用以下子模块进行迭代处理,直至满足预设条件:
选取子模块3202,用于根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;
采集子模块3204,用于根据选取的第一数据所对应的数据标识,利用精采集方式采集第二数据;
获取子模块3206,用于根据选取的第一数据,获取数据标识对应的特征数据;
确定子模块3208,用于根据采集的第二数据,确定数据标识对应的标签;
训练子模块3210,用于根据标签和特征数据,对所述价值预测模型进行训练。
下面介绍本说明书电子设备的一个实施例。图4是该实施例中电子设备的硬件结构示意图。如图4所示,该电子设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图4所示的硬件结构仅为示意,其并不对上述电子设备的硬件结构造成限定。在实际中该电子设备还可以包括比图4所示更多或者更少的组件单元;或者,具有与图4所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述远程设置的网络存储器可以通过诸如互联网、企业内部网、局域网、移动通信网等网络连接至所述电子设备。所述存储器可以用于存储应用软件的程序指令或模块,例如本说明书图1所对应实施例的程序指令或模块。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书图1所对应实施例的程序指令或模块。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、电子设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (11)

1.一种数据采集方法,包括:
利用以下步骤进行迭代处理,直至满足预设条件:
根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;
根据选取的第一数据所对应的数据标识,利用精采集方式采集第二数据;
根据选取的第一数据,获取数据标识对应的特征数据;
根据采集的第二数据,确定数据标识对应的标签;
根据标签和特征数据,对所述价值预测模型进行训练。
2.如权利要求1所述的方法,所述数据标识包括页面标识;
所述第一数据包括通过静态页面方式爬取到的页面数据;
所述第二数据包括通过动态渲染页面方式爬取到的页面数据。
3.如权利要求1所述的方法,所述从第一数据集中选取第一数据,包括:
利用价值预测模型对第一数据集中的第一数据进行预测,得到第一数据的精采集价值;
根据精采集价值,从第一数据集中选取第一数据。
4.如权利要求3所述的方法,还包括:
对第一数据的精采集价值进行修正;
所述从第一数据集中选取第一数据,包括:
根据修正后的精采集价值,从第一数据集中选取第一数据。
5.如权利要求1所述的方法,所述获取数据标识对应的特征数据,包括:
从选取的第一数据中提取特征数据,作为数据标识对应的第一类型的特征数据。
6.如权利要求1或5所述的方法,所述数据标识对应有业务对象,所述方法还包括:
获取业务对象的属性数据,作为数据标识对应的第二类型的特征数据。
7.如权利要求1所述的方法,所述确定数据标识对应的标签,包括:
计算第二数据相对于第一数据的信息增益,作为数据标识对应的信息增益;
利用业务模型获取第二数据的业务价值,作为数据标识对应的业务价值;
根据信息增益和业务价值,确定数据标识对应的标签。
8.如权利要求7所述的方法,所述确定数据标识对应的标签,包括:
根据信息增益和业务价值,计算数据标识对应的复合价值;
根据复合价值,确定数据标识对应的标签。
9.如权利要求1所述的方法,还包括:
将选取的第一数据从第一数据集中删除。
10.一种数据采集装置,包括:
迭代模块,用于利用以下子模块进行迭代处理,直至满足预设条件:
选取子模块,用于根据价值预测模型,从第一数据集中选取第一数据,所述第一数据集包括至少一个第一数据,所述第一数据由粗采集方式采集得到;
采集子模块,用于根据选取第一数据所对应的数据标识,利用精采集方式采集第二数据;
获取子模块,用于根据选取的第一数据,获取数据标识对应的特征数据;
确定子模块,用于根据采集的第二数据,确定数据标识对应的标签;
训练子模块,用于根据标签和特征数据,对所述价值预测模型进行训练。
11.一种电子设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-9中任一项所述方法的指令。
CN202010378074.4A 2020-05-07 2020-05-07 数据采集方法、装置和电子设备 Active CN111680203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010378074.4A CN111680203B (zh) 2020-05-07 2020-05-07 数据采集方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010378074.4A CN111680203B (zh) 2020-05-07 2020-05-07 数据采集方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111680203A CN111680203A (zh) 2020-09-18
CN111680203B true CN111680203B (zh) 2023-04-18

Family

ID=72433377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010378074.4A Active CN111680203B (zh) 2020-05-07 2020-05-07 数据采集方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111680203B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845098A (zh) * 2006-02-20 2006-10-11 南京工业大学 仿人工细粒度网页信息采集方法
CN106484828A (zh) * 2016-09-29 2017-03-08 西南科技大学 一种分布式互联网数据快速采集系统及采集方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN108920617A (zh) * 2018-06-28 2018-11-30 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN110309388A (zh) * 2018-03-09 2019-10-08 阿里巴巴集团控股有限公司 数据对象信息违法风险识别方法、装置以及计算机系统
CN110968483A (zh) * 2019-12-20 2020-04-07 支付宝实验室(新加坡)有限公司 业务数据采集方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538949B2 (en) * 2011-06-17 2013-09-17 Microsoft Corporation Interactive web crawler

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845098A (zh) * 2006-02-20 2006-10-11 南京工业大学 仿人工细粒度网页信息采集方法
CN106484828A (zh) * 2016-09-29 2017-03-08 西南科技大学 一种分布式互联网数据快速采集系统及采集方法
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN110309388A (zh) * 2018-03-09 2019-10-08 阿里巴巴集团控股有限公司 数据对象信息违法风险识别方法、装置以及计算机系统
CN108920617A (zh) * 2018-06-28 2018-11-30 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN110968483A (zh) * 2019-12-20 2020-04-07 支付宝实验室(新加坡)有限公司 业务数据采集方法、装置及电子设备

Also Published As

Publication number Publication date
CN111680203A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN109766438B (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
US8527451B2 (en) Business semantic network build
US20100262610A1 (en) Identifying Subject Matter Experts
CN110427487B (zh) 一种数据标注方法、装置及存储介质
US20150081469A1 (en) Assisting buying decisions using customer behavior analysis
CN106372060A (zh) 搜索文本的标注方法和装置
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN113221555A (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN111930623A (zh) 一种测试案例构建方法、装置及电子设备
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN116883181B (zh) 基于用户画像的金融服务推送方法、存储介质及服务器
CN111582565A (zh) 数据融合方法、装置和电子设备
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN111680203B (zh) 数据采集方法、装置和电子设备
CN114710318B (zh) 一种限制爬虫高频访问的方法、装置、设备及介质
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
US11615245B2 (en) Article topic alignment
CN111914868A (zh) 模型训练方法、异常数据检测方法、装置和电子设备
CN114021064A (zh) 网站分类方法、装置、设备及存储介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN112307371A (zh) 小程序子服务识别方法、装置、设备及存储介质
CN113158117A (zh) 一种网站访问量预测方法、装置及设备
CN113407714B (zh) 基于时效的数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037329

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant