CN117493423A - 互联网数据挖掘方法、装置计算机设备及介质 - Google Patents
互联网数据挖掘方法、装置计算机设备及介质 Download PDFInfo
- Publication number
- CN117493423A CN117493423A CN202311843757.2A CN202311843757A CN117493423A CN 117493423 A CN117493423 A CN 117493423A CN 202311843757 A CN202311843757 A CN 202311843757A CN 117493423 A CN117493423 A CN 117493423A
- Authority
- CN
- China
- Prior art keywords
- data
- mining
- initial
- initial data
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000007418 data mining Methods 0.000 title claims abstract description 43
- 238000005065 mining Methods 0.000 claims abstract description 100
- 239000013598 vector Substances 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000009412 basement excavation Methods 0.000 claims description 23
- 238000013480 data collection Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种互联网数据挖掘方法、装置计算机设备及介质,其中,方法包括:通过获取数据挖掘的多个关键词,然后基于各个关键词设置多个聚类中心,将初始数据按照预设的组合方法组合为n个数据集合,确定每个数据集合的挖掘数量,然后确定挖掘初始数据,组成挖掘数据库。本发明的有益效果:保证了数据的精确度,并且还兼顾了数据的多样性,提高了用户的体验。
Description
技术领域
本发明涉及数据分析领域,特别涉及一种互联网数据挖掘方法、装置计算机设备及介质。
背景技术
目前,互联网数据挖掘是一个涉及从互联网资源中提取和分析数据的过程,它可以被用来获取见解、发现模式或支持决策。现有的数据挖掘方式主要是通过关键词进行挖掘,其计算方式一般是通过关键词检索,或者通过关键词的组合进行检索,然而这样检索的方式会导致搜寻的数据过多,导致组成挖掘数据库的精确度降低,从而降低了用户的体验。
发明内容
本发明的主要目的为提供一种互联网数据挖掘方法、装置计算机设备及介质,旨在解决现有方式会导致搜寻的数据过多,导致组成挖掘数据库的精确度降低的问题。
本发明提供了一种互联网数据挖掘方法,包括:
获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
进一步地,所述根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据的步骤,包括:
根据公式计算各个第二多维向量与第一多维向量之间的相似度,其中,Y是第一多维向量,X表示第二多维向量;
根据各个相似度的大小选取所述挖掘数量的挖掘初始数据。
进一步地,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤之后,还包括:
获取所述挖掘数据库中各个挖掘初始数据的时间信息;
基于所述时间信息为各个挖掘初始数据设置优先级顺序;
基于所述优先级顺序向用户有序推送各个所述挖掘初始数据。
进一步地,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤,包括:
获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据;
获取各个初始数据的格式;
根据格式的种类将初始数据组合为n个数据集合。
进一步地,所述根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据的步骤,包括:
判断是否具有多个初始距离最小的初始数据;
若具有多个初始距离最小的初始数据,则任意选取其中一个作为目标初始数据,并将其余的初始距离最小的初始数据优先作为选取的挖掘初始数据。
进一步地,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤之前,还包括:
获取用户预先输入的参照数据;
根据预设的关键词提取方法从所述参照数据中提取多个关键词。
进一步地,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤,之后,还包括:
判断是否接收到用户反馈的重新挖掘信息;其中,所述重新挖掘信息中含有新的关键词;
若具有重新挖掘信息,则基于所述新的关键词重新收集初始数据,并重新组成挖掘数据库。
本发明还提供了一种互联网数据挖掘装置,包括:
获取模块,用于获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
设置模块,用于基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
选取模块,用于根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
第一计算模块,用于在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
第二计算模块,用于基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
生成模块,用于基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
第三计算模块,用于根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
组成模块,用于根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过获取数据挖掘的多个关键词,然后基于各个关键词设置多个聚类中心,将初始数据按照预设的组合方法组合为n个数据集合,确定每个数据集合的挖掘数量,然后确定挖掘初始数据,组成挖掘数据库。从而保证了数据的精确度,并且还兼顾了数据的多样性,提高了用户的体验。
附图说明
图1 是本发明一实施例的一种互联网数据挖掘方法的流程示意图;
图2 是本发明一实施例的一种互联网数据挖掘装置的结构示意框图;
图3 为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种互联网数据挖掘方法,包括:
S1:获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
S2:基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
S3:根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
S4:在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
S5:基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
S6:基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
S7:根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
S8:根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
如上述步骤S1所述,获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合。其中,关键词的获取可以是相关人员直接输入得到,也可以是根据用户输入的参考数据,然后通过预设方式进行获取。大数据搜集方式可以是基于现有的数据搜集方式进行搜寻,在一些是实施例中,大数据收集方法可以是现有的数据库搜集方式,例如百度等,从而收集到多个初始数据,然后按照预设的组合方法组合为n个数据集合,其中,预设的组合方法本申请不作限定,可以是任意的组合方式,例如,可以采用随机分配的方式,限定每个集合数据的数量,还可以根据数据的格式进行分配。如上述步骤S2所述,基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;其中,每个关键词都是可以进行匹配的,因此,在收集的过程中可能是基于单个关键词进行收集的数据,因此,可以以每个关键词设置聚类中心,然后检测第k个数据集合中与各个初始数据的初始距离,具体可以将关键词以及其引申义,或者将关键词的解释作为第一向量,然后将对应的初始数据进行向量化,作为第二向量,然后通过预设的欧式距离计算方法计算其欧式距离以作为初始距离。
如上述步骤S3-S5所述,根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据。在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,/>表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,/>表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整。公式中,当各个聚类中心之间的距离是固定的,因此变化量仅在于每个聚类中心检测到的目标距离的差值,可以看出,公式是一个二次函数,当目标距离的差值过大,挖掘数量反而会变小,这说明该数据中含有的初始数据比较杂乱,不利于后续的分析,而当初始数据的差值过小,挖掘数量也会变小,这说明该集合中数据的相类似的数据过多,不利于后续数据库的数据多样性。
如上述步骤S6-S8所述,基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。因此,在获取到了各个集合的挖掘数量后,可以根据关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量,具体地,可以将多个关键词进行组合,然后按照预设的方式进行向量化,从而得到第一多维向量,具体地,可以基于关键词找取到含有所有关键词的模板数据,然后根据模板数据进行向量化,以得到第一多维向量,然后将初始数据进行向量化,以得到多个第二多维向量,根据相似度大小选取所述挖掘数量的挖掘初始数据;根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。从而保证了数据的精确度,并且还兼顾了数据的多样性,提高了用户的体验。
在一个实施例中,所述根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据的步骤S7,包括:
S701:根据公式计算各个第二多维向量与第一多维向量之间的相似度,其中,Y是第一多维向量,X表示第二多维向量;
S702:根据各个相似度的大小选取所述挖掘数量的挖掘初始数据。
如上述步骤S701-S702所述,根据公式向量与预存向量之间的余弦值,其中余弦值cosθ值越大,相似度越高,根据各个相似度的大小选取所述挖掘数量的挖掘初始数据,从而可以确保数据与关键词更加接近,使形成的挖掘数据库精度更高。
在一个实施例中,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤S8之后,还包括:
S901:获取所述挖掘数据库中各个挖掘初始数据的时间信息;
S902:基于所述时间信息为各个挖掘初始数据设置优先级顺序;
S903:基于所述优先级顺序向用户有序推送各个所述挖掘初始数据。
如上述步骤S901-S903所述,实现了对挖掘初始数据的推送的先后顺序选择,使用户的体验性更好,具体地,获取选取的挖掘初始数据的时间信息,即该时间信息可以是上传的时间时间信息,若是短视频,还可以是拍摄或者制作短视频时的时间信息,本申请对此不作限定,此外,在获取到对应的时间信息后,可以为挖掘初始数据设置优先级顺序,例如可以设置为距离当前时间最近的挖掘初始数据先发送给用户,从而可以使用户可以浏览到最新的挖掘初始数据,从而可以紧随热点。
在一个实施例中,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤S1,包括:
S101:获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据;
S102:获取各个初始数据的格式;
S103:根据格式的种类将初始数据组合为n个数据集合。
如上述步骤S101-S103所述,大数据得到的巨量数据是难以进行划分的,因此,可以先用数据的格式对其进行初步划分,根据格式的种类将初始数据组合为n个数据集合,从而有利于后续的归纳,以及确定每个集合中的挖掘数量。
在一个实施例中,所述根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据的步骤S3,包括:
S301:判断是否具有多个初始距离最小的初始数据;
S302:若具有多个初始距离最小的初始数据,则任意选取其中一个作为目标初始数据,并将其余的初始距离最小的初始数据优先作为选取的挖掘初始数据。
如上述步骤S301-S302所述,在具体地实施例中,可能具有多个初始距离最小的初始数据,因此,可以任意选取其中一个作为目标初始数据,并将其余的初始距离最小的初始数据优先作为选取的挖掘初始数据,从而有利于提高挖掘数据库的精确度。
在一个实施例中,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤S1之前,还包括:
S001:获取用户预先输入的参照数据;
S002:根据预设的关键词提取方法从所述参照数据中提取多个关键词。
如上述步骤S001-S002所述,关键词的获取方式可以是获取到用户预先输入的参照数据,然后根据预设的关键词提取方法从所述参照数据中提取多个关键词,其中,关键词的获取方式为现有技术方式,本申请不再赘述。
在一个实施例中,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤S8之后,还包括:
S911:判断是否接收到用户反馈的重新挖掘信息;其中,所述重新挖掘信息中含有新的关键词;
S912:若具有重新挖掘信息,则基于所述新的关键词重新收集初始数据,并重新组成挖掘数据库。
如上述步骤S911-S912所述,用户在浏览了挖掘数据库后,可以根据关键词进行调整,然后根据新的关键词重新收集初始数据,并重新组成挖掘数据库,从而完善对数据库的数据补充,提高挖掘数据库的精度。
本发明的有益效果:通过获取数据挖掘的多个关键词,然后基于各个关键词设置多个聚类中心,将初始数据按照预设的组合方法组合为n个数据集合,确定每个数据集合的挖掘数量,然后确定挖掘初始数据,组成挖掘数据库。从而保证了数据的精确度,并且还兼顾了数据的多样性,提高了用户的体验。
参照图2,本发明还提供了一种互联网数据挖掘装置,包括:
获取模块10,用于获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
设置模块20,用于基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
选取模块30,用于根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
第一计算模块40,用于在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
第二计算模块50,用于基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
生成模块60,用于基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
第三计算模块70,用于根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
组成模块80,用于根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种初始数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的互联网数据挖掘方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的互联网数据挖掘方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种互联网数据挖掘方法,其特征在于,包括:
获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,/>表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,/>表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
2.如权利要求1所述的互联网数据挖掘方法,其特征在于,所述根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据的步骤,包括:
根据公式计算各个第二多维向量与第一多维向量之间的相似度,其中,Y是第一多维向量,X表示第二多维向量;
根据各个相似度的大小选取所述挖掘数量的挖掘初始数据。
3.如权利要求1所述的互联网数据挖掘方法,其特征在于,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤之后,还包括:
获取所述挖掘数据库中各个挖掘初始数据的时间信息;
基于所述时间信息为各个挖掘初始数据设置优先级顺序;
基于所述优先级顺序向用户有序推送各个所述挖掘初始数据。
4.如权利要求1所述的互联网数据挖掘方法,其特征在于,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤,包括:
获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据;
获取各个初始数据的格式;
根据格式的种类将初始数据组合为n个数据集合。
5.如权利要求4所述的互联网数据挖掘方法,其特征在于,所述根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据的步骤,包括:
判断是否具有多个初始距离最小的初始数据;
若具有多个初始距离最小的初始数据,则任意选取其中一个作为目标初始数据,并将其余的初始距离最小的初始数据优先作为选取的挖掘初始数据。
6.如权利要求1所述的互联网数据挖掘方法,其特征在于,所述获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合的步骤之前,还包括:
获取用户预先输入的参照数据;
根据预设的关键词提取方法从所述参照数据中提取多个关键词。
7.如权利要求1所述的互联网数据挖掘方法,其特征在于,所述根据各个数据集合对应的挖掘初始数据以组成挖掘数据库的步骤,之后,还包括:
判断是否接收到用户反馈的重新挖掘信息;其中,所述重新挖掘信息中含有新的关键词;
若具有重新挖掘信息,则基于所述新的关键词重新收集初始数据,并重新组成挖掘数据库。
8.一种互联网数据挖掘装置,其特征在于,包括:
获取模块,用于获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;
设置模块,用于基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;
选取模块,用于根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;
第一计算模块,用于在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;
第二计算模块,用于基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;
生成模块,用于基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;
第三计算模块,用于根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;
组成模块,用于根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311843757.2A CN117493423B (zh) | 2023-12-29 | 2023-12-29 | 互联网数据挖掘方法、装置计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311843757.2A CN117493423B (zh) | 2023-12-29 | 2023-12-29 | 互联网数据挖掘方法、装置计算机设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117493423A true CN117493423A (zh) | 2024-02-02 |
CN117493423B CN117493423B (zh) | 2024-03-26 |
Family
ID=89669352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311843757.2A Active CN117493423B (zh) | 2023-12-29 | 2023-12-29 | 互联网数据挖掘方法、装置计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493423B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009470A1 (en) * | 2001-04-25 | 2003-01-09 | Leary James F. | Subtractive clustering for use in analysis of data |
CN110414569A (zh) * | 2019-07-03 | 2019-11-05 | 北京小米智能科技有限公司 | 聚类实现方法及装置 |
CN111368891A (zh) * | 2020-02-27 | 2020-07-03 | 大连大学 | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 |
CN116383464A (zh) * | 2023-04-10 | 2023-07-04 | 遥相科技发展(北京)有限公司 | 一种基于流式计算的关联性大数据聚类方法及装置 |
-
2023
- 2023-12-29 CN CN202311843757.2A patent/CN117493423B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009470A1 (en) * | 2001-04-25 | 2003-01-09 | Leary James F. | Subtractive clustering for use in analysis of data |
CN110414569A (zh) * | 2019-07-03 | 2019-11-05 | 北京小米智能科技有限公司 | 聚类实现方法及装置 |
CN111368891A (zh) * | 2020-02-27 | 2020-07-03 | 大连大学 | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 |
CN116383464A (zh) * | 2023-04-10 | 2023-07-04 | 遥相科技发展(北京)有限公司 | 一种基于流式计算的关联性大数据聚类方法及装置 |
Non-Patent Citations (2)
Title |
---|
余芳: "基于子图泛化的社会网络隐私保护", 《中国优秀硕士学位论文全文数据库》, 15 January 2013 (2013-01-15) * |
苏彬彬: "无线网络环境下未知协议语义分析与提取技术", 《中国优秀硕士学位论文全文数据库》, 15 March 2016 (2016-03-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117493423B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
US20170032217A1 (en) | Online per-feature descriptor customization | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
CN113849648B (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN111432003B (zh) | 应用于云计算的数据推送方法、装置、电子设备及系统 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN109597982A (zh) | 摘要文本识别方法及装置 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN114329711A (zh) | 一种基于图形算量平台的预制构件数据处理方法及系统 | |
CN117493423B (zh) | 互联网数据挖掘方法、装置计算机设备及介质 | |
CN114510923A (zh) | 基于人工智能的文本主题生成方法、装置、设备及介质 | |
CN113869398A (zh) | 一种不平衡文本分类方法、装置、设备及存储介质 | |
CN112487897B (zh) | 笔迹内容评价方法、装置及电子设备 | |
CN106909552A (zh) | 图像检索服务器、系统、相关检索及排错方法 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 | |
CN113986245A (zh) | 基于halo平台的目标代码生成方法、装置、设备及介质 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
CN116701567A (zh) | 基于人工智能的电子图书检索方法及系统 | |
CN113688243B (zh) | 语句中实体的标注方法、装置、设备以及存储介质 | |
CN110222724A (zh) | 一种图片实例检测方法、装置、计算机设备及存储介质 | |
CN111898747A (zh) | 一种特征比对方法及电子设备 | |
CN113779415B (zh) | 新闻推荐模型的训练方法、装置、设备以及存储介质 | |
CN112612979A (zh) | 基于云计算和人工智能的页面服务处理方法及区块链中心 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |