CN116303688A - 一种基于互联网的数字化分析方法、系统、设备及介质 - Google Patents
一种基于互联网的数字化分析方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116303688A CN116303688A CN202310554643.XA CN202310554643A CN116303688A CN 116303688 A CN116303688 A CN 116303688A CN 202310554643 A CN202310554643 A CN 202310554643A CN 116303688 A CN116303688 A CN 116303688A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- data
- internet
- information
- digital analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000010252 digital analysis Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000007418 data mining Methods 0.000 claims abstract description 19
- 230000009193 crawling Effects 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012797 qualification Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析技术领域,其目的在于提供一种基于互联网的数字化分析方法、系统、设备及介质。本发明先基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,然后对所述企业数据进行预处理,得到预处理后数据,随后对所述预处理后数据进行数据挖掘处理,得到目标数据,最后根据所述目标数据生成企业画像。在此过程中,通过网络爬虫工具从互联网上爬取企业数据,利于提高数据的采集效率,随后基于爬取得到的企业数据生成企业画像,可便于实现对企业用户的精准营销,适用于推广使用。
Description
技术领域
本发明属于数据分析技术领域,具体涉及一种基于互联网的数字化分析方法、系统、设备及介质。
背景技术
在进行企业服务管理的过程中,通常需要深度了解企业的各类信息,并通过数字化分析方法对企业信息进行分析及处理,以便对企业产品营销及企业服务提供数据支撑。现有技术中,由于互联网的发展,各类企业的经营信息通常会发布在互联网上,因而基于互联网进行企业数据数字化分析是很有必要的。但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
现有技术中,通常采用人工在各个网站上检索得到企业信息,然而,由于企业信息在互联网上的数据格式通常不固定,且数据存放位置不一,导致在数字化分析过程中对数据的采集和处理需要耗费大量的时间和运算资源,导致数字化分析的效率有限,难以处理大规模数据和复杂信息。此外,现有技术中,基于企业数据的分析过程中,通常采用人工分析的方式执行,导致信息的处理效率较为低下。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种基于互联网的数字化分析方法、系统、设备及介质。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于互联网的数字化分析方法,基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据;
对所述企业数据进行预处理,得到预处理后数据;
对所述预处理后数据进行数据挖掘处理,得到目标数据;
根据所述目标数据生成企业画像。
本发明可增加数据采集和处理的效率。具体地,本发明在实施过程中,先基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,然后对所述企业数据进行预处理,得到预处理后数据,随后对所述预处理后数据进行数据挖掘处理,得到目标数据,最后根据所述目标数据生成企业画像。在此过程中,通过网络爬虫工具从互联网上爬取企业数据,利于提高数据的采集效率,随后基于爬取得到的企业数据生成企业画像,可便于实现对企业用户的精准营销,适用于推广使用。
在一个可能的设计中,基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,包括:
接收指定企业名称对应的企业数据提取请求,并将所述企业数据提取请求发送至指定网站;
判断是否接收到当前指定网站发送的验证请求,如是,则进入下一步;其中,所述验证请求携带有验证内容信息;如否,则直接从当前指定网站上爬取与指定企业名称对应的企业数据;
将所述验证内容信息输入预设的机器学习模型中,得到验证结果信息;
根据所述验证结果信息对当前指定网站的验证请求进行验证操作,并在验证通过后基于预设的网络爬虫工具从当前指定网站上爬取与指定企业名称对应的指定企业的企业数据。
在一个可能的设计中,所述企业数据的来源包括企业官网、政务平台和/或第三方机构平台,对应地,所述企业数据包括来自企业官网的企业内部信息、来自政务平台的与当前企业相关的政务信息和/或来自第三方机构平台的企业信息;其中,来自企业官网的企业内部信息包括企业架构信息、企业业务信息和/或企业核心交易信息,来自第三方机构平台的企业信息包括企业动态交易信息、企业评价信息、企业宣传信息和/或企业资质信息。
在一个可能的设计中,对所述企业数据进行预处理,得到预处理后数据,包括:
对所述企业数据进行数据清洗处理,得到清洗后数据;
对所述清洗后数据进行数据转换处理,得到转换后数据;
对所述转换后数据进行规约处理,得到预处理后数据。
在一个可能的设计中,对所述预处理后数据进行数据挖掘处理时,采用聚类算法和/或关联规则算法执行。
在一个可能的设计中,根据所述目标数据生成企业画像,包括:
从所述目标数据中提取企业特征标签;
对所述企业特征标签进行分类检测,得到检测后标签数据;
对所述检测后标签数据进行关联分析,得到最终标签;
根据多个最终标签得到企业画像。
在一个可能的设计中,根据所述目标数据生成企业画像后,所述方法还包括:
获取所述企业画像中的最终标签;
从预设的数据库中得到与当前最终标签对应的参照标签;
根据所述参照标签对当前最终标签进行准确性验证,得到验证结果;
根据所述验证结果对所述企业画像进行调整,得到最终的企业画像。
第二方面,本发明提供了一种基于互联网的数字化分析系统,用于实现如上述任一项所述的基于互联网的数字化分析方法;所述基于互联网的数字化分析系统包括:
数据采集模块,用于基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据;
数据预处理模块,与所述数据采集模块通信连接,用于对所述企业数据进行预处理,得到预处理后数据;
数据挖掘模块,与所述数据预处理模块通信连接,用于对所述预处理后数据进行数据挖掘处理,得到目标数据;
企业画像生成模块,与所述数据挖掘模块通信连接,用于根据所述目标数据生成企业画像。
第三方面,本发明提供了一种电子设备,包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如上述任一项所述的基于互联网的数字化分析方法的操作。
第四方面,本发明提供了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如上述任一项所述的基于互联网的数字化分析方法的操作。
附图说明
图1是实施例中一种基于互联网的数字化分析方法的流程图;
图2是实施例中一种基于互联网的数字化分析系统的模块框图;
图3是实施例中一种电子设备的模块框图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
实施例1:
本实施例公开了一种基于互联网的数字化分析方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行,或者由虚拟机执行。
如图1所示,一种基于互联网的数字化分析方法,可以但不限于包括有如下步骤:
S1.基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据。
需要说明的是,本实施例中,企业数据的来源包括企业官网、政务平台和第三方机构平台等,其中,第三方机构平台包括但不仅限于门户网站、交易平台和社交网络平台等;对应地,企业数据包括但不仅限于来自如企业官网的企业内部信息、来自如政务平台的与当前企业相关的政务信息和来自如第三方机构平台的企业信息等,来自如企业官网的企业内部信息包括企业架构信息、企业业务信息和企业核心交易信息等,来自如第三方机构平台的企业信息包括企业动态交易信息、企业评价信息、企业宣传信息和企业资质信息等,此处不予限制。
本实施例中,可以但不仅限于采用如Larbin(一种开源的网络爬虫/网络蜘蛛)、Web spider(网络爬虫)、Nutch(一个开源Java 实现的搜索引擎)等开源的网络爬虫工具从互联网的指定网站内获取多源异构的企业数据,此处亦不予限制,基于网络爬虫工具从互联网获取数据,速度更快。
本实施例中,基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,包括:
S101.接收指定企业名称对应的企业数据提取请求,并将所述企业数据提取请求发送至指定网站;
S102.判断是否接收到当前指定网站发送的验证请求,如是,则进入下一步;其中,所述验证请求携带有验证内容信息;应当理解的是,验证内容信息如为算式、待验证图片等,此处不予限制;如否,则直接从当前指定网站上爬取与指定企业名称对应的企业数据;
S103.将所述验证内容信息输入预设的机器学习模型中,得到验证结果信息;本实施例中,预设的机器学习模型可以但不仅限于采用如DNN (Deep neural networks,深度神经网络)模型等深度学习模型,此处不予限制。
S104.根据所述验证结果信息对当前指定网站的验证请求进行验证操作,如将验证结果信息输入验证框内,并在验证通过后基于预设的网络爬虫工具从当前指定网站上爬取与指定企业名称对应的指定企业的企业数据。
本实施例可基于上述步骤,可在需进行验证的网站上进行企业数据提取,具体地,本实施例可以通过预设的机器学习模型对目标验证码图片进行识别,进而得到验证结果信息,并根据验证结果信息自动完成指定网站的验证,进而可保证顺利获取不同权限网站上的数据,适用场景更广,可利于获取更为完整的企业数据。
S2.对所述企业数据进行预处理,得到预处理后数据;需要说明的是,本实施例中,通过对企业数据进行预处理,用于实现对企业数据的标准化、规范化和格式化,以确保企业数据的质量和一致性,方便后续对其处理。
本实施例中,对所述企业数据进行预处理,得到预处理后数据,包括:
S201.对所述企业数据进行数据清洗处理,得到清洗后数据;需要说明的是,清洗数据处理是预处理中的首个关键步骤,该步骤的目的是删除数据集中的错误、缺失值、重复值和异常值等,从而提高从互联网采集的企业数据的质量和可信度。具体地,本实施例中,对所述企业数据进行数据清洗处理,得到清洗后数据,包括:使用均值、中位数、众数等填充所述企业数据中的缺失值,或通过插值法和回归法对企业数据进行处理,以实现对企业数据的缺失值处理,得到缺失值填充后数据;使用箱线图、z-score(z分数)等方法检测和删除所述缺失值填充后数据中的异常值,以实现对缺失值填充后数据的异常值处理,得到异常值处理后数据;使用如K-means(k均值)聚类、Fuzzy Clustering(模糊聚类)等数据挖掘算法,将多个异常值处理后数据集成到一起,实现对异常值处理后数据的集成处理,得到最终的清洗后数据,以便后续分析。
S202.对所述清洗后数据进行数据转换处理,得到转换后数据;需要说明的是,数据转换是将原始的清洗后数据进行转换,使其符合后续对其进行分析和挖掘的要求。本实施例中,对所述清洗后数据进行数据转换处理,得到转换后数据,包括:对所述清洗后数据进行数据重构处理,得到重构数据,具体地,对所述清洗后数据进行数据重构处理时,可以但不仅限于使用PCA(Principal Component Analysis,主成分分析)或因子分析等算法进行数据降维,以便得到重构数据;对所述重构数据进行离散化处理,得到离散化后数据,具体地,对所述重构数据进行离散化处理时,可以但不仅限于采用等距离散化、等频离散化等方式,将连续的重构数据转换为分类数据,以便得到离散化后数据;对所述离散化后数据进行归一化处理,得到转换后数据,具体地,对所述离散化后数据进行归一化处理时,可采用最大最小归一化和z-score标准化等方法,将离散化后数据按照一定的比例缩放到指定的区间内,进而得到转换后数据,作为示例,对任一离散化后数据,依照下式对其进行归一化处理:/>,式中,/>为所有离散后后数据的平均值,s为所有离散后后数据的标准差,进而可得到转换后数据/>,由此完成对清洗后数据的转换处理。
S203.对所述转换后数据进行规约处理,得到预处理后数据;需要说明的是,数据规约处理是提高数据效率和减少存储空间的重要方法。本实施例中,对所述转换后数据进行规约处理,得到预处理后数据,包括:对所述转换后数据进行数据压缩处理,得到压缩后数据,具体地,可以但不仅限于采用哈希压缩、字典压缩等算法对所述转换后数据进行数据压缩处理;对所述压缩后数据进行属性规约处理,得到预处理后数据,具体地,对所述压缩后数据进行属性规约处理,可实现对压缩后数据中必要或冗余的属性的删除或简化,本实施例中,可以但不仅限于采用主成分分析等方法对所述压缩后数据进行属性规约处理,以便得到预处理后数据。
S3.对所述预处理后数据进行数据挖掘处理,得到目标数据;需要说明的是,本实施例中,可以但不仅限于通过聚类算法、关联规则算法等数据挖掘算法对预处理后数据进行分析和挖掘,以便得到目标数据,便于从目标数据中发现某些规律、趋势和关系;具体地,可将预处理后数据根据企业行业、企业所在地区、企业规模等属性进行分类,也可以使用关联规则算法从预处理后数据中找出不同企业之间的共同点。
S4.根据所述目标数据生成企业画像。需要说明的是,得到的企业画像模型涵盖客户的基本特征、兴趣偏好、购买历史等信息,能够准确地描述企业客户的特点和行为模式。
本实施例中,根据所述目标数据生成企业画像,包括:
S401.从所述目标数据中提取企业特征标签;
S402.对所述企业特征标签进行分类检测,得到检测后标签数据;
S403.对所述检测后标签数据进行关联分析,得到最终标签;
S404.根据多个最终标签得到企业画像。
本实施例中,根据所述目标数据生成企业画像后,所述方法还包括:
S5.对所述企业画像进行验证,以便得到最终的企业画像。
具体地,本实施例中,对所述企业画像进行验证,包括:
S501.获取所述企业画像中的最终标签;
S502.从预设的数据库中得到与当前最终标签对应的参照标签;
S503.根据所述参照标签对当前最终标签进行准确性验证,得到验证结果;
S504.根据所述验证结果对所述企业画像进行调整,得到最终的企业画像。
需要说明的是,通过企业画像中的最终标签的验证,可便于能够保证企业画像中标签信息的准确性,进而可便于后续用户在基于企业画像进行查询等操作时,能够获取准确的结果。
本实施例可增加数据采集和处理的效率。具体地,本实施例在实施过程中,先基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,然后对所述企业数据进行预处理,得到预处理后数据,随后对所述预处理后数据进行数据挖掘处理,得到目标数据,最后根据所述目标数据生成企业画像。在此过程中,通过网络爬虫工具从互联网上爬取企业数据,利于提高数据的采集效率,随后基于爬取得到的企业数据生成企业画像,可便于实现对企业用户的精准营销,适用于推广使用。
实施例2:
本实施例公开了一种基于互联网的数字化分析系统,用于实现实施例1中基于互联网的数字化分析方法;如图2所示,所述基于互联网的数字化分析系统包括:
数据采集模块,用于基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据;
数据预处理模块,与所述数据采集模块通信连接,用于对所述企业数据进行预处理,得到预处理后数据;
数据挖掘模块,与所述数据预处理模块通信连接,用于对所述预处理后数据进行数据挖掘处理,得到目标数据;
企业画像生成模块,与所述数据挖掘模块通信连接,用于根据所述目标数据生成企业画像。
实施例3:
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等,如图3所示,电子设备包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的基于互联网的数字化分析方法的操作。
具体地,处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中实施例1提供的基于互联网的数字化分析方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/ Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。
电源306用于为电子设备中的各个组件进行供电。
实施例4:
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的基于互联网的数字化分析方法的操作。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于互联网的数字化分析方法,其特征在于:包括:
基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据;
对所述企业数据进行预处理,得到预处理后数据;
对所述预处理后数据进行数据挖掘处理,得到目标数据;
根据所述目标数据生成企业画像。
2.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据,包括:
接收指定企业名称对应的企业数据提取请求,并将所述企业数据提取请求发送至指定网站;
判断是否接收到当前指定网站发送的验证请求,如是,则进入下一步;其中,所述验证请求携带有验证内容信息;如否,则直接从当前指定网站上爬取与指定企业名称对应的企业数据;
将所述验证内容信息输入预设的机器学习模型中,得到验证结果信息;
根据所述验证结果信息对当前指定网站的验证请求进行验证操作,并在验证通过后基于预设的网络爬虫工具从当前指定网站上爬取与指定企业名称对应的指定企业的企业数据。
3.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:所述企业数据的来源包括企业官网、政务平台和/或第三方机构平台,对应地,所述企业数据包括来自企业官网的企业内部信息、来自政务平台的与当前企业相关的政务信息和/或来自第三方机构平台的企业信息;其中,来自企业官网的企业内部信息包括企业架构信息、企业业务信息和/或企业核心交易信息,来自第三方机构平台的企业信息包括企业动态交易信息、企业评价信息、企业宣传信息和/或企业资质信息。
4.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:对所述企业数据进行预处理,得到预处理后数据,包括:
对所述企业数据进行数据清洗处理,得到清洗后数据;
对所述清洗后数据进行数据转换处理,得到转换后数据;
对所述转换后数据进行规约处理,得到预处理后数据。
5.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:对所述预处理后数据进行数据挖掘处理时,采用聚类算法和/或关联规则算法执行。
6.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:根据所述目标数据生成企业画像,包括:
从所述目标数据中提取企业特征标签;
对所述企业特征标签进行分类检测,得到检测后标签数据;
对所述检测后标签数据进行关联分析,得到最终标签;
根据多个最终标签得到企业画像。
7.根据权利要求1所述的一种基于互联网的数字化分析方法,其特征在于:根据所述目标数据生成企业画像后,所述方法还包括:
获取所述企业画像中的最终标签;
从预设的数据库中得到与当前最终标签对应的参照标签;
根据所述参照标签对当前最终标签进行准确性验证,得到验证结果;
根据所述验证结果对所述企业画像进行调整,得到最终的企业画像。
8.一种基于互联网的数字化分析系统,其特征在于:用于实现如权利要求1至7中任一项所述的基于互联网的数字化分析方法;所述基于互联网的数字化分析系统包括:
数据采集模块,用于基于预设的网络爬虫工具从互联网中爬取得到指定企业的企业数据;
数据预处理模块,与所述数据采集模块通信连接,用于对所述企业数据进行预处理,得到预处理后数据;
数据挖掘模块,与所述数据预处理模块通信连接,用于对所述预处理后数据进行数据挖掘处理,得到目标数据;
企业画像生成模块,与所述数据挖掘模块通信连接,用于根据所述目标数据生成企业画像。
9.一种电子设备,其特征在于:包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如权利要求1至7中任一项所述的基于互联网的数字化分析方法的操作。
10.一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,其特征在于:所述计算机程序指令被配置为运行时执行如权利要求1至7中任一项所述的基于互联网的数字化分析方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310554643.XA CN116303688A (zh) | 2023-05-17 | 2023-05-17 | 一种基于互联网的数字化分析方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310554643.XA CN116303688A (zh) | 2023-05-17 | 2023-05-17 | 一种基于互联网的数字化分析方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303688A true CN116303688A (zh) | 2023-06-23 |
Family
ID=86781888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310554643.XA Pending CN116303688A (zh) | 2023-05-17 | 2023-05-17 | 一种基于互联网的数字化分析方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303688A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658478A (zh) * | 2017-10-10 | 2019-04-19 | 爱信诺征信有限公司 | 一种提供企业画像的方法及系统 |
CN111950932A (zh) * | 2020-08-26 | 2020-11-17 | 北京信息科技大学 | 基于多源信息融合的中小微企业综合质量画像方法 |
WO2021000678A1 (zh) * | 2019-07-04 | 2021-01-07 | 平安科技(深圳)有限公司 | 企业信贷审核方法、装置、设备及计算机可读存储介质 |
CN114298412A (zh) * | 2021-12-28 | 2022-04-08 | 问策师信息科技南京有限公司 | 一种基于人工智能和大数据的企业安全标准化运行方法 |
-
2023
- 2023-05-17 CN CN202310554643.XA patent/CN116303688A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658478A (zh) * | 2017-10-10 | 2019-04-19 | 爱信诺征信有限公司 | 一种提供企业画像的方法及系统 |
WO2021000678A1 (zh) * | 2019-07-04 | 2021-01-07 | 平安科技(深圳)有限公司 | 企业信贷审核方法、装置、设备及计算机可读存储介质 |
CN111950932A (zh) * | 2020-08-26 | 2020-11-17 | 北京信息科技大学 | 基于多源信息融合的中小微企业综合质量画像方法 |
CN114298412A (zh) * | 2021-12-28 | 2022-04-08 | 问策师信息科技南京有限公司 | 一种基于人工智能和大数据的企业安全标准化运行方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113836131B (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
EP3916584A1 (en) | Information processing method and apparatus, electronic device and storage medium | |
CN107862425B (zh) | 风控数据采集方法、设备、系统及可读存储介质 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111651552A (zh) | 结构化信息确定方法、装置和电子设备 | |
CN114398557A (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN112650804B (zh) | 大数据接入方法、装置、系统及存储介质 | |
CN117195886A (zh) | 基于人工智能的文本数据处理方法、装置、设备及介质 | |
CN116303688A (zh) | 一种基于互联网的数字化分析方法、系统、设备及介质 | |
CN114064976A (zh) | 一种数据特征计算的方法、系统、电子装置和存储介质 | |
CN110795424B (zh) | 特征工程变量数据请求处理方法、装置及电子设备 | |
CN107145375A (zh) | 内核加载方法、装置、系统、用户终端及存储介质 | |
CN112966038A (zh) | 从非结构化数据中提取结构化数据方法及装置 | |
CN116339733B (zh) | 一种应用程序页面生成方法、系统、电子设备及介质 | |
CN113239296B (zh) | 小程序的展示方法、装置、设备和介质 | |
CN112818197B (zh) | 搜索方法、装置、电子设备以及存储介质 | |
US20220222300A1 (en) | Systems and methods for temporal and visual feature driven search utilizing machine learning | |
CN115526731A (zh) | 任务批处理方法、装置、计算机设备及存储介质 | |
CN117389607A (zh) | 看板配置方法、装置、计算机设备及存储介质 | |
CN117608839A (zh) | 任务处理方法、装置、电子设备以及存储介质 | |
CN117370817A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN117372093A (zh) | 一种内容推荐方法、系统、电子设备及介质 | |
CN117492752A (zh) | 一种页面动态配置方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230623 |