CN113190670A - 一种基于大数据平台的信息展示方法及系统 - Google Patents

一种基于大数据平台的信息展示方法及系统 Download PDF

Info

Publication number
CN113190670A
CN113190670A CN202110498623.6A CN202110498623A CN113190670A CN 113190670 A CN113190670 A CN 113190670A CN 202110498623 A CN202110498623 A CN 202110498623A CN 113190670 A CN113190670 A CN 113190670A
Authority
CN
China
Prior art keywords
data
module
clustering
vector
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110498623.6A
Other languages
English (en)
Inventor
韦鹏程
颜蓓
贺方成
陈美成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Education
Original Assignee
Chongqing University of Education
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Education filed Critical Chongqing University of Education
Priority to CN202110498623.6A priority Critical patent/CN113190670A/zh
Publication of CN113190670A publication Critical patent/CN113190670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种基于大数据平台的信息展示方法及系统,所述基于大数据平台的信息展示系统包括:输入模块、数据挖掘模块、数据预处理模块、中央控制模块、聚类模块、语义特征提取模块、验证模块、数据筛选模块、数据融合模块、分析模块、展示参数设置模块、数据存储模块以及信息展示模块。本发明提供的基于大数据平台的信息展示系统,通过数据预处理进行了数据的清洗、去重,保证展示结果的有效性,同时提高了系统的处理效率,降低了处理时间。同时,本发明通过聚类分析二次验证确保数据的相关性,避免出现过多无关内容,且能够基于用户偏好以及设置进行展示方式的选择,提供简单直观的交互方式,提高了用户的体验度。

Description

一种基于大数据平台的信息展示方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于大数据平台的信息展示方法及系统。
背景技术
目前,随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流,包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。如何从海量的数据中提取、获得想要的知识或感兴趣的信息,这是利用好大数据,进而更好地服务于社会发展的要求。因此,数据挖掘方法应运而生。
但是现有结合数据技术的大数据信息展示平台或相应方法,只能机械的挖掘相关数据,显示的数据往往是重复的,甚至有许多无关内容,也不可能进行展示方式以及展示参数的设置,所有展示形式都相同。
通过上述分析,现有技术存在的问题及缺陷为:现有的展示方法展示的信息重复多,无关内容多,且无法进行展示方式以及展示参数的设置,所有展示形式都相同。
发明内容
针对现有技术存在的问题,本发明提供了一种基于大数据平台的信息展示方法及系统。
本发明是这样实现的,一种基于大数据平台的信息展示系统,所述基于大数据平台的信息展示系统包括:
输入模块,与中央控制模块连接,用于利用输入设备或输入装置确定待展示的内容关键词;
数据挖掘模块,与中央控制模块连接,用于基于输入的关键词利用大数据挖掘技术获取与所述关键词相关的所有数据,包括:
(1)从各个服务器中获取多个维度的大数据,并利用AP聚类对所述维度的所有大数据进行进行初步归类,得到每个维度的稀疏向量;其中,所述AP聚类的实现方法,包括:
计算矩阵E的相似性矩阵,相似性度量采用皮尔逊相关系数,两个样本点i和k,两个样本点通过传递信息响应性和适用性判断作为聚类中心的样本点:
Figure BDA0003055508970000021
Figure BDA0003055508970000022
其中,s(i,k)代表i和k两个样本点的相似性,r(i,k)是由样本点i发给候选聚类中心k的,用来表明与其他候选聚类中心k’相比,样本点k适合作为样本点i的聚类中心所积累的证据;a(i,k)是由候选聚类中心k传递给样本点i的,用来表明考虑到其他样本点i’对样本点k成为聚类中心的支持度上,样本点i挑选样本点k作为聚类中心的累积合适程度,a(i,k)初始值为0;根据最大化每个样本点两个变量之和来判断当前样本点是聚类中心,还是隶属于其他的聚类中心;
(2)利用AP聚类的结果对稀疏向量进行分类,提取每个维度的稀疏向量的特征信息,并根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度;
(3)将分类后的向量作为ISA双向聚类的输入,根据所述多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据;
(4)根据在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据,得到数据挖掘结果;
数据预处理模块,与中央控制模块连接,用于对挖掘得到的所有数据进行清洗、去重以及归一化处理;其中,所述对挖掘得到的所有数据进行清洗,包括:
(1)根据挖掘得到的数据信息创建用于清洗相应挖掘数据的清洗映射区;
(2)根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区;
(3)根据所述清洗节点序列和网格清洗划分策略对创建的所述清洗映射区进行数据清洗;
所述归一化处理,包括:
接收用户输入的实体归一化策略相关的规则参数;所述规则参数包括至少一个待比较的目标属性、所述目标属性对应的比较条件参数、以及各目标属性对应的比较条件之间组合的比较规则;
根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;
所述根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码,包括:针对任意一个待比较的目标属性,根据所述目标属性的类型、以及所述目标属性对应的比较条件参数,获取所述目标属性的比较函数;根据每一比较规则,调用对应的比较函数、并确定逻辑运算类型,得到所述比较规则的程序代码;根据各比较规则的程序代码得到所述实体归一化策略对应的程序代码;
运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类;
中央控制模块,与输入模块、数据挖掘模块、数据预处理模块、聚类模块、语义特征提取模块、验证模块、数据筛选模块、数据融合模块、分析模块、展示参数设置模块、数据存储模块以及信息展示模块连接,用于利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作;
所述利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作,包括:进行灰色模型建模,并使用建立的灰色模型进行控制;所述进行灰色模型建模包括:
X(0)为原始非负数据序列:X(0)=[x(0)(1),x(0)(2),...,x(0)(n)],对X(0)进行一次累加生成操作,得到X(0)的1-AGO序列,X(1)=[x(1)(1),x(1)(2),...,x(1)(n)],其中,
Figure BDA0003055508970000041
对序列X(1)进行紧邻均值生成操作,得到X(1)的紧邻均值生成序列Z(1),其中z(1)(k)=0.5[x(1)(k)+x(1)(k-1)],k=1,2,...,n;
得到GM(1,1)的灰色微分方程:x(0)(k)+az(1)(k)=u,以及相应的白化方程:
Figure BDA0003055508970000042
其中,a为发展系数,u为灰色作用量;
进行a、u的求解:采用最小二乘法
Figure BDA0003055508970000043
其中,
Figure BDA0003055508970000044
Yn=[x(0)(2)x(0)(3)...x(0)(n)]T;白化方程的解为
Figure BDA0003055508970000045
相应的灰色微分方程的时间响应序列为:即k时刻的值
Figure BDA0003055508970000046
对序列
Figure BDA0003055508970000047
进行累减生成操作,即累加生成的逆运算,记为IAGO,可得预测序列
Figure BDA0003055508970000048
其中,
Figure BDA0003055508970000049
k+d时刻的预测值为:
Figure BDA00030555089700000410
d为系统滞后时间;
聚类模块,与中央控制模块连接,用于对预处理后的所有数据进行聚类处理,得到多个分类数据;
根据模糊聚类算法将数据进行分类,并计算每类的聚类中心;
FCM把n个向量xk分为c个模糊类,并求每类的聚类中心ci,从而使模糊目标函数最小;
模糊聚类的目标函数为:
Figure BDA0003055508970000051
其中,dij=||ci-xj||为样本向量距离中心点的欧式距离,ci是第i类的中心,m为样本个数,j为属性列;每一聚类中心的计算公式为:
Figure BDA0003055508970000052
通过隶属度函数计算隶属度值,构成模糊矩阵;
隶属度函数为:
Figure BDA0003055508970000053
从模糊矩阵中选择训练样本,作为广义神经网络的训练输入;
在模糊矩阵中选择距离中心值最小的m个样本作为训练样本,通过n*m组数据作为广义神经网络的训练输入;其中,n为根据模糊聚类算法将入侵数据分类的个数,m为1~5之间的数据;
根据广义神经网络的训练输入,预测输出入侵数据类别;所述广义神经网络由输入层、模式层、求和层和输出层四级结构组成;
将数据重新分为n类,找出最靠近每类中心值的样本作为训练样本;得出聚类结果;
语义特征提取模块,与中央控制模块连接,用于对聚类得到的每个分类数据进行语义特征提取,包括:将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量;通过特征提取模型对所述第一语义向量进行语义特征提取;
验证模块,与中央控制模块连接,用于将各个分类提取的语义特征与输入的内容关键词进行对比,判断是否存在联系;
数据筛选模块,与中央控制模块连接,用于基于验证结果,保留存在联系的数据,并删除无联系的数据;
数据融合模块,与中央控制模块连接,用于挖掘所有存在联系的分类数据的关系,建立映射将各个具备联系的分类数据进行数据融合;
分析模块,与中央控制模块连接,用于对数据融合后的数据进行智能分析处理;
展示参数设置模块,与中央控制模块连接,用于进行展示参数的获取;同时也可用于搜索用户的历史行为数据获取用户偏好展示参数;
数据存储模块,与中央控制模块连接,用于通过存储器存储获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果;
信息展示模块,与中央控制模块连接,用于利用显示设备基于获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果的显示。
进一步,数据挖掘模块中,所述将分类后的向量作为ISA双向聚类的输入,包括:
计算矩阵E的行标准矩阵EC和列标准矩阵EG,标准化后矩阵中的向量都具有零均值和单位长度为1的特性;对于初始种子c0来说,所述ISA算法通过以下更新公式来求取代表双向类中样本和特征的向量:
Figure BDA0003055508970000061
Figure BDA0003055508970000071
其中,cn和gn代表第n次迭代更新后的向量,向量中的非零元素分别用来挑选样本和特征;直到cn-1和cn、gn-1和gn非常接近时,迭代终止,cn和gn向量中非零元素所对应的样本和特征就组成双向类。
进一步,数据挖掘模块中,所述根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,包括:
(1)从所述每个维度的稀疏向量的特征信息中分析得到高贡献值特征与低贡献值特征;
(2)计算所述高贡献值特征在所述每个维度的稀疏向量的特征信息中的第一占比及所述低贡献值特征在每个维度的稀疏向量的特征信息中的第二占比;
(3)根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目;
(4)根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
进一步,数据预处理模块中,所述根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区,包括:
(1)根据数据挖掘关键词息,确定针对相应挖掘数据的分类属性,并根据所述分类属性确定相应挖掘数据的清洗区间和清洗区间之间的映射关系;
(2)以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
(3)根据所述清洗节点序列矩阵,配置相应挖掘数据的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区。
进一步,语义特征提取模块中,所述对聚类得到的每个分类数据进行语义特征提取,包括:
将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量;通过特征提取模型对所述第一语义向量进行语义特征提取。
进一步,所述聚类关键词第一语义向量表征所述分类数据聚类关键词的语义信息。
进一步,所述将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量,包括:
(1)对所述各个分类数据聚类关键词进行词嵌入向量转换,获得所述各个分类数据聚类关键词对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
(2)对所述词嵌入向量进行语义编码,获得所述各个分类数据聚类关键词对应的第一编码向量,即为输入文本对应的第一语义向量。
进一步,所述第一编码向量包括所述每个词对应的编码向量。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用所述的基于大数据平台的信息展示系统。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用所述的基于大数据平台的信息展示系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于大数据平台的信息展示系统,通过数据预处理进行了数据的清洗、去重,保证了展示结果的有效性,同时提高了系统的处理效率,降低了处理时间;通过聚类模块将AP聚类和ISA双向聚类有机结合起来,发挥各自的优势,达到识别不同大小双向类的目的,提高矩阵数据中局部信息的识别能力。同时,本发明通过聚类分析二次验证确保数据的相关性,避免出现过多无关内容,且能够基于用户偏好以及设置进行展示方式的选择,提供简单直观的交互方式,提高了用户的体验度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于大数据平台的信息展示方法流程图。
图2是本发明实施例提供的基于大数据平台的信息展示系统结构示意图;
图中:1、输入模块;2、数据挖掘模块;3、数据预处理模块;4、中央控制模块;5、聚类模块;6、语义特征提取模块;7、验证模块;8、数据筛选模块;9、数据融合模块;10、分析模块;11、展示参数设置模块;12、数据存储模块;13、信息展示模块。
图3是本发明实施例提供的通过数据挖掘模块基于输入的关键词利用大数据挖掘技术获取与该关键词相关的所有数据的方法流程图。
图4是本发明实施例提供的通过数据预处理模块对挖掘得到的所有数据进行清洗方法流程图。
图5是本发明实施例提供的通过语义特征提取模块对聚类得到的每个分类数据进行语义特征提取的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于大数据平台的信息展示方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于大数据平台的信息展示方法包括以下步骤:
S101,通过输入模块利用输入设备或输入装置确定待展示的内容关键词;通过数据挖掘模块基于输入的关键词利用大数据挖掘技术获取与该关键词相关的所有数据;
S102,通过数据预处理模块对挖掘得到的所有数据进行清洗、去重以及归一化处理;通过中央控制模块利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作;
S103,通过聚类模块对预处理后的所有数据进行聚类处理,得到多个分类数据;通过语义特征提取模块对聚类得到的每个分类数据进行语义特征提取;
S104,通过验证模块将各个分类提取的语义特征与输入的内容关键词进行对比,判断是否存在联系;通过数据筛选模块基于验证结果,保留存在联系的数据,并删除无联系的数据;
S105,通过数据融合模块挖掘所有存在联系的分类数据的关系,建立映射将各个具备联系的分类数据进行数据融合;通过分析模块对数据融合后的数据进行智能分析处理;
S106,通过展示参数设置模块进行展示参数的获取;同时也可用于搜索用户的历史行为数据获取用户偏好展示参数;
S107,通过数据存储模块利用存储器存储获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果;通过信息展示模块利用显示设备基于获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果的显示。
如图2所示,本发明实施例提供的基于大数据平台的信息展示系统包括:输入模块1、数据挖掘模块2、数据预处理模块3、中央控制模块4、聚类模块5、语义特征提取模块6、验证模块7、数据筛选模块8、数据融合模块9、分析模块10、展示参数设置模块11、数据存储模块12以及信息展示模块13。
输入模块1,与中央控制模块4连接,用于利用输入设备或输入装置确定待展示的内容关键词;
数据挖掘模块2,与中央控制模块4连接,用于基于输入的关键词利用大数据挖掘技术获取与该关键词相关的所有数据;
数据预处理模块3,与中央控制模块4连接,用于对挖掘得到的所有数据进行清洗、去重以及归一化处理;
中央控制模块4,与输入模块1、数据挖掘模块2、数据预处理模块3、聚类模块5、语义特征提取模块6、验证模块7、数据筛选模块8、数据融合模块9、分析模块10、展示参数设置模块11、数据存储模块12以及信息展示模块13连接,用于利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作;
聚类模块5,与中央控制模块4连接,用于对预处理后的所有数据进行聚类处理,得到多个分类数据;
语义特征提取模块6,与中央控制模块4连接,用于对聚类得到的每个分类数据进行语义特征提取;
验证模块7,与中央控制模块4连接,用于将各个分类提取的语义特征与输入的内容关键词进行对比,判断是否存在联系;
数据筛选模块8,与中央控制模块4连接,用于基于验证结果,保留存在联系的数据,并删除无联系的数据;
数据融合模块9,与中央控制模块4连接,用于挖掘所有存在联系的分类数据的关系,建立映射将各个具备联系的分类数据进行数据融合;
分析模块10,与中央控制模块4连接,用于对数据融合后的数据进行智能分析处理;
展示参数设置模块11,与中央控制模块4连接,用于进行展示参数的获取;同时也可用于搜索用户的历史行为数据获取用户偏好展示参数;
通过数据存储模块12,与中央控制模块4连接,用于通过存储器存储获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果;
信息展示模块13,与中央控制模块4连接,用于利用显示设备基于获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果的显示。
下面结合具体实施例对本发明作进一步描述。
实施例1
本发明实施例提供的基于大数据平台的信息展示方法如图1所示,作为优选实施例,如图3所示,本发明实施例提供的通过数据挖掘模块基于输入的关键词利用大数据挖掘技术获取与该关键词相关的所有数据的方法包括:
S201,从各个服务器中获取多个维度的大数据,并利用AP聚类对所述维度的所有大数据进行进行初步归类,得到每个维度的稀疏向量;
S202,利用AP聚类的结果对稀疏向量进行分类,提取每个维度的稀疏向量的特征信息,并根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度;
S203,将分类后的向量作为ISA双向聚类的输入,根据所述多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据;
S204,根据在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据,得到数据挖掘结果。
本发明实施例提供的AP聚类的实现方法,包括:
计算矩阵E的相似性矩阵,相似性度量采用皮尔逊相关系数,两个样本点i和k,两个样本点通过传递信息响应性和适用性判断作为聚类中心的样本点:
Figure BDA0003055508970000121
Figure BDA0003055508970000122
其中,s(i,k)代表i和k两个样本点的相似性,r(i,k)是由样本点i发给候选聚类中心k的,用来表明与其他候选聚类中心k’相比,样本点k适合作为样本点i的聚类中心所积累的证据;a(i,k)是由候选聚类中心k传递给样本点i的,用来表明考虑到其他样本点i’对样本点k成为聚类中心的支持度上,样本点i挑选样本点k作为聚类中心的累积合适程度,a(i,k)初始值为0;根据最大化每个样本点两个变量之和来判断当前样本点是聚类中心,还是隶属于其他的聚类中心。
本发明实施例提供的所述归一化处理,包括:
接收用户输入的实体归一化策略相关的规则参数;所述规则参数包括至少一个待比较的目标属性、所述目标属性对应的比较条件参数、以及各目标属性对应的比较条件之间组合的比较规则;
根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;
所述根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码,包括:针对任意一个待比较的目标属性,根据所述目标属性的类型、以及所述目标属性对应的比较条件参数,获取所述目标属性的比较函数;根据每一比较规则,调用对应的比较函数、并确定逻辑运算类型,得到所述比较规则的程序代码;根据各比较规则的程序代码得到所述实体归一化策略对应的程序代码;
运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类。
本发明实施例提供的利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作,包括:进行灰色模型建模,并使用建立的灰色模型进行控制;所述进行灰色模型建模包括:
X(0)为原始非负数据序列:X(0)=[x(0)(1),x(0)(2),...,x(0)(n)],对X(0)进行一次累加生成操作,得到X(0)的1-AGO序列,X(1)=[x(1)(1),x(1)(2),...,x(1)(n)],其中,
Figure BDA0003055508970000141
对序列X(1)进行紧邻均值生成操作,得到X(1)的紧邻均值生成序列Z(1),其中z(1)(k)=0.5[x(1)(k)+x(1)(k-1)],k=1,2,...,n;
得到GM(1,1)的灰色微分方程:x(0)(k)+az(1)(k)=u,以及相应的白化方程:
Figure BDA0003055508970000142
其中,a为发展系数,u为灰色作用量;
进行a、u的求解:采用最小二乘法
Figure BDA0003055508970000143
其中,
Figure BDA0003055508970000144
Yn=[x(0)(2)x(0)(3)...x(0)(n)]T;白化方程的解为
Figure BDA0003055508970000145
相应的灰色微分方程的时间响应序列为:即k时刻的值
Figure BDA0003055508970000146
对序列
Figure BDA0003055508970000147
进行累减生成操作,即累加生成的逆运算,记为IAGO,可得预测序列
Figure BDA0003055508970000148
其中,
Figure BDA0003055508970000149
k+d时刻的预测值为:
Figure BDA00030555089700001410
d为系统滞后时间。
本发明实施例提供的对预处理后的所有数据进行聚类处理,得到多个分类数据,包括:
根据模糊聚类算法将数据进行分类,并计算每类的聚类中心;
FCM把n个向量xk分为c个模糊类,并求每类的聚类中心ci,从而使模糊目标函数最小;
模糊聚类的目标函数为:
Figure BDA00030555089700001411
其中,dij=||ci-xj||为样本向量距离中心点的欧式距离,ci是第i类的中心,m为样本个数,j为属性列;每一聚类中心的计算公式为:
Figure BDA0003055508970000151
通过隶属度函数计算隶属度值,构成模糊矩阵;
隶属度函数为:
Figure BDA0003055508970000152
从模糊矩阵中选择训练样本,作为广义神经网络的训练输入;
在模糊矩阵中选择距离中心值最小的m个样本作为训练样本,通过n*m组数据作为广义神经网络的训练输入;其中,n为根据模糊聚类算法将入侵数据分类的个数,m为1~5之间的数据;
根据广义神经网络的训练输入,预测输出入侵数据类别;所述广义神经网络由输入层、模式层、求和层和输出层四级结构组成;
将数据重新分为n类,找出最靠近每类中心值的样本作为训练样本;得出聚类结果。
本发明实施例提供的根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,包括:
(1)从所述每个维度的稀疏向量的特征信息中分析得到高贡献值特征与低贡献值特征;
(2)计算所述高贡献值特征在所述每个维度的稀疏向量的特征信息中的第一占比及所述低贡献值特征在每个维度的聚类簇的特征信息中的第二占比;
(3)根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目;
(4)根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
本发明实施例提供的将分类后的向量作为ISA双向聚类的输入,包括:
计算矩阵E的行标准矩阵EC和列标准矩阵EG,标准化后矩阵中的向量都具有零均值和单位长度为1的特性;对于初始种子c0来说,所述ISA算法通过以下更新公式来求取代表双向类中样本和特征的向量:
Figure BDA0003055508970000161
Figure BDA0003055508970000162
其中,cn和gn代表第n次迭代更新后的向量,向量中的非零元素分别用来挑选样本和特征;直到cn-1和cn、gn-1和gn非常接近时,迭代终止,cn和gn向量中非零元素所对应的样本和特征就组成双向类。
实施例2
本发明实施例提供的基于大数据平台的信息展示方法如图1所示,作为优选实施例,如图4所示,本发明实施例提供的通过数据预处理模块对挖掘得到的所有数据进行清洗的方法包括:
S301,根据挖掘得到的数据信息创建用于清洗相应挖掘数据的清洗映射区;
S302,根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区;
S303,根据所述清洗节点序列和网格清洗划分策略对创建的所述清洗映射区进行数据清洗。
本发明实施例提供的根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区,包括:
(1)根据数据挖掘关键词息,确定针对相应挖掘数据的分类属性,并根据所述分类属性确定相应挖掘数据的清洗区间和清洗区间之间的映射关系;
(2)以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
(3)根据所述清洗节点序列矩阵,配置相应挖掘数据的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区。
实施例3
本发明实施例提供的基于大数据平台的信息展示方法如图1所示,作为优选实施例,如图5所示,本发明实施例提供的通过语义特征提取模块对聚类得到的每个分类数据进行语义特征提取的方法包括:
(1)将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量;
(2)通过特征提取模型对所述第一语义向量进行语义特征提取。
本发明实施例提供的聚类关键词第一语义向量表征所述分类数据聚类关键词的语义信息。
如图5所示,本发明实施例提供的将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量包括:
S401,对所述各个分类数据聚类关键词进行词嵌入向量转换,获得所述各个分类数据聚类关键词对应的字向量、句向量以及位置向量;
S402,将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
S403,对所述词嵌入向量进行语义编码,获得所述各个分类数据聚类关键词对应的第一编码向量,即为输入文本对应的第一语义向量。
本发明实施例提供的第一编码向量包括所述每个词对应的编码向量。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于大数据平台的信息展示系统,其特征在于,所述基于大数据平台的信息展示系统包括:
输入模块,与中央控制模块连接,用于利用输入设备或输入装置确定待展示的内容关键词;
数据挖掘模块,与中央控制模块连接,用于基于输入的关键词利用大数据挖掘技术获取与所述关键词相关的所有数据,包括:
(1)从各个服务器中获取多个维度的大数据,并利用AP聚类对所述维度的所有大数据进行进行初步归类,得到每个维度的稀疏向量;其中,所述AP聚类的实现方法,包括:
计算矩阵E的相似性矩阵,相似性度量采用皮尔逊相关系数,两个样本点i和k,两个样本点通过传递信息响应性和适用性判断作为聚类中心的样本点:
Figure FDA0003055508960000011
Figure FDA0003055508960000012
其中,s(i,k)代表i和k两个样本点的相似性,r(i,k)是由样本点i发给候选聚类中心k的,用来表明与其他候选聚类中心k’相比,样本点k适合作为样本点i的聚类中心所积累的证据;a(i,k)是由候选聚类中心k传递给样本点i的,用来表明考虑到其他样本点i’对样本点k成为聚类中心的支持度上,样本点i挑选样本点k作为聚类中心的累积合适程度,a(i,k)初始值为0;根据最大化每个样本点两个变量之和来判断当前样本点是聚类中心,还是隶属于其他的聚类中心;
(2)利用AP聚类的结果对稀疏向量进行分类,提取每个维度的稀疏向量的特征信息,并根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度;
(3)将分类后的向量作为ISA双向聚类的输入,根据所述多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据;
(4)根据在每个数据挖掘项目下获取待挖掘数据维度对应的关键词相关数据,得到数据挖掘结果;
数据预处理模块,与中央控制模块连接,用于对挖掘得到的所有数据进行清洗、去重以及归一化处理;其中,所述对挖掘得到的所有数据进行清洗,包括:
(1)根据挖掘得到的数据信息创建用于清洗相应挖掘数据的清洗映射区;
(2)根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区;
(3)根据所述清洗节点序列和网格清洗划分策略对创建的所述清洗映射区进行数据清洗;
所述归一化处理,包括:
接收用户输入的实体归一化策略相关的规则参数;所述规则参数包括至少一个待比较的目标属性、所述目标属性对应的比较条件参数、以及各目标属性对应的比较条件之间组合的比较规则;
根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;
所述根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码,包括:针对任意一个待比较的目标属性,根据所述目标属性的类型、以及所述目标属性对应的比较条件参数,获取所述目标属性的比较函数;根据每一比较规则,调用对应的比较函数、并确定逻辑运算类型,得到所述比较规则的程序代码;根据各比较规则的程序代码得到所述实体归一化策略对应的程序代码;
运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类;
中央控制模块,与输入模块、数据挖掘模块、数据预处理模块、聚类模块、语义特征提取模块、验证模块、数据筛选模块、数据融合模块、分析模块、展示参数设置模块、数据存储模块以及信息展示模块连接,用于利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作;
所述利用单片机或中央处理器协调控制所述基于大数据平台的信息展示系统各个模块的正常工作,包括:进行灰色模型建模,并使用建立的灰色模型进行控制;所述进行灰色模型建模包括:
X(0)为原始非负数据序列:X(0)=[x(0)(1),x(0)(2),...,x(0)(n)],对X(0)进行一次累加生成操作,得到X(0)的1-AGO序列,X(1)=[x(1)(1),x(1)(2),...,x(1)(n)],其中,
Figure FDA0003055508960000031
对序列X(1)进行紧邻均值生成操作,得到X(1)的紧邻均值生成序列Z(1),其中z(1)(k)=0.5[x(1)(k)+x(1)(k-1)],k=1,2,...,n;
得到GM(1,1)的灰色微分方程:x(0)(k)+az(1)(k)=u,以及相应的白化方程:
Figure FDA0003055508960000032
其中,a为发展系数,u为灰色作用量;
进行a、u的求解:采用最小二乘法
Figure FDA0003055508960000033
其中,
Figure FDA0003055508960000034
Yn=[x(0)(2)x(0)(3)...x(0)(n)]T;白化方程的解为
Figure FDA0003055508960000035
相应的灰色微分方程的时间响应序列为:即k时刻的值
Figure FDA0003055508960000036
对序列
Figure FDA0003055508960000037
进行累减生成操作,即累加生成的逆运算,记为IAGO,可得预测序列
Figure FDA0003055508960000038
其中,
Figure FDA0003055508960000039
k+d时刻的预测值为:
Figure FDA0003055508960000041
d为系统滞后时间;
聚类模块,与中央控制模块连接,用于对预处理后的所有数据进行聚类处理,得到多个分类数据;
所述对预处理后的所有数据进行聚类处理,得到多个分类数据,包括:
根据模糊聚类算法将数据进行分类,并计算每类的聚类中心;
FCM把n个向量xk分为c个模糊类,并求每类的聚类中心ci,从而使模糊目标函数最小;
模糊聚类的目标函数为:
Figure FDA0003055508960000042
其中,dij=||ci-xj||为样本向量距离中心点的欧式距离,ci是第i类的中心,m为样本个数,j为属性列;每一聚类中心的计算公式为:
Figure FDA0003055508960000043
通过隶属度函数计算隶属度值,构成模糊矩阵;
隶属度函数为:
Figure FDA0003055508960000044
从模糊矩阵中选择训练样本,作为广义神经网络的训练输入;
在模糊矩阵中选择距离中心值最小的m个样本作为训练样本,通过n*m组数据作为广义神经网络的训练输入;其中,n为根据模糊聚类算法将入侵数据分类的个数,m为1~5之间的数据;
根据广义神经网络的训练输入,预测输出入侵数据类别;所述广义神经网络由输入层、模式层、求和层和输出层四级结构组成;
将数据重新分为n类,找出最靠近每类中心值的样本作为训练样本;得出聚类结果;
语义特征提取模块,与中央控制模块连接,用于对聚类得到的每个分类数据进行语义特征提取,包括:将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量;通过特征提取模型对所述第一语义向量进行语义特征提取;
验证模块,与中央控制模块连接,用于将各个分类提取的语义特征与输入的内容关键词进行对比,判断是否存在联系;
数据筛选模块,与中央控制模块连接,用于基于验证结果,保留存在联系的数据,并删除无联系的数据;
数据融合模块,与中央控制模块连接,用于挖掘所有存在联系的分类数据的关系,建立映射将各个具备联系的分类数据进行数据融合;
分析模块,与中央控制模块连接,用于对数据融合后的数据进行智能分析处理;
展示参数设置模块,与中央控制模块连接,用于进行展示参数的获取;同时也可用于搜索用户的历史行为数据获取用户偏好展示参数;
数据存储模块,与中央控制模块连接,用于通过存储器存储获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果;
信息展示模块,与中央控制模块连接,用于利用显示设备基于获取的展示参数或偏好展示参数进行数据融合结果以及数据分析结果的显示。
2.如权利要求1所述的基于大数据平台的信息展示系统,其特征在于,数据挖掘模块中,所述将分类后的向量作为ISA双向聚类的输入,包括:
计算矩阵E的行标准矩阵EC和列标准矩阵EG,标准化后矩阵中的向量都具有零均值和单位长度为1的特性;对于初始种子c0来说,所述ISA算法通过以下更新公式来求取代表双向类中样本和特征的向量:
Figure FDA0003055508960000061
Figure FDA0003055508960000062
其中,cn和gn代表第n次迭代更新后的向量,向量中的非零元素分别用来挑选样本和特征;直到cn-1和cn、gn-1和gn非常接近时,迭代终止,cn和gn向量中非零元素所对应的样本和特征就组成双向类。
3.如权利要求1所述的基于大数据平台的信息展示系统,其特征在于,数据挖掘模块中,所述根据每个维度的稀疏向量的特征信息,确定与所述输入关键词相关的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,包括:
(1)从所述每个维度的稀疏向量的特征信息中分析得到高贡献值特征与低贡献值特征;
(2)计算所述高贡献值特征在所述每个维度的稀疏向量的特征信息中的第一占比及所述低贡献值特征在每个维度的稀疏向量的特征信息中的第二占比;
(3)根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目;
(4)根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
4.如权利要求1所述的基于大数据平台的信息展示系统,其特征在于,数据预处理模块中,所述根据数据挖掘关键词息,配置对应的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区,包括:
(1)根据数据挖掘关键词息,确定针对相应挖掘数据的分类属性,并根据所述分类属性确定相应挖掘数据的清洗区间和清洗区间之间的映射关系;
(2)以所述清洗区间为所述清洗变量、以所述映射关系为清洗参照对象,将所述分类属性构建为清洗节点序列矩阵;
(3)根据所述清洗节点序列矩阵,配置相应挖掘数据的清洗节点序列和网格清洗划分策略,并将所述清洗节点序列和网格清洗划分策略关联到相应的清洗映射区。
5.如权利要求1所述的基于大数据平台的信息展示系统,其特征在于,语义特征提取模块中,所述对聚类得到的每个分类数据进行语义特征提取,包括:
将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量;通过特征提取模型对所述第一语义向量进行语义特征提取。
6.如权利要求5所述的基于大数据平台的信息展示系统,其特征在于,所述聚类关键词第一语义向量表征所述分类数据聚类关键词的语义信息。
7.如权利要求5所述的基于大数据平台的信息展示系统,其特征在于,所述将各个分类数据聚类关键词进行词嵌入向量转换,获得对应的聚类关键词第一语义向量,包括:
(1)对所述各个分类数据聚类关键词进行词嵌入向量转换,获得所述各个分类数据聚类关键词对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
(2)对所述词嵌入向量进行语义编码,获得所述各个分类数据聚类关键词对应的第一编码向量,即为输入文本对应的第一语义向量。
8.如权利要求7所述的基于大数据平台的信息展示系统,其特征在于,所述第一编码向量包括所述每个词对应的编码向量。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用如权利要求1~8任意一项所述的基于大数据平台的信息展示系统。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用如权利要求1~8任意一项所述的基于大数据平台的信息展示系统。
CN202110498623.6A 2021-05-08 2021-05-08 一种基于大数据平台的信息展示方法及系统 Pending CN113190670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110498623.6A CN113190670A (zh) 2021-05-08 2021-05-08 一种基于大数据平台的信息展示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110498623.6A CN113190670A (zh) 2021-05-08 2021-05-08 一种基于大数据平台的信息展示方法及系统

Publications (1)

Publication Number Publication Date
CN113190670A true CN113190670A (zh) 2021-07-30

Family

ID=76984493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110498623.6A Pending CN113190670A (zh) 2021-05-08 2021-05-08 一种基于大数据平台的信息展示方法及系统

Country Status (1)

Country Link
CN (1) CN113190670A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661101A (zh) * 2022-04-06 2022-06-24 杭州盈嘉网络科技有限公司 一种基于云平台的分类式数据处理平台
CN115359906A (zh) * 2022-08-22 2022-11-18 温州城市智慧健康有限公司 一种基于健康大数据的智慧健康服务系统
CN116304931A (zh) * 2023-05-12 2023-06-23 山东英伟电子技术有限公司 一种基于大数据的电力数据挖掘方法
CN116362462A (zh) * 2022-11-18 2023-06-30 麦高(广东)数字科技有限公司 一种基于物联网和大数据分析的全闭环生产管理系统
CN116561188A (zh) * 2023-04-11 2023-08-08 上海御灵树网络科技有限公司 一种具有筛选功能的大数据分析方法
CN117290674A (zh) * 2023-11-23 2023-12-26 浙江九州量子信息技术股份有限公司 一种大数据量随机比特序列重码统计和定位的方法和系统
CN117668962A (zh) * 2023-10-20 2024-03-08 苏州赛锐德科技有限公司 一种基于建筑信息化的监控方法及系统
CN116561188B (zh) * 2023-04-11 2024-06-11 北京联世传奇网络技术有限公司 一种具有筛选功能的大数据分析方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007049282A2 (en) * 2005-10-26 2007-05-03 Cortica Ltd. A computing device, a system and a method for parallel processing of data streams
CN104539484A (zh) * 2014-12-31 2015-04-22 深圳先进技术研究院 一种动态评估网络连接可信度的方法及系统
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN107368844A (zh) * 2017-06-02 2017-11-21 西安电子科技大学 一种基于ap聚类和isa双向聚类的双向聚类方法
CN109165383A (zh) * 2018-08-09 2019-01-08 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111158666A (zh) * 2019-12-27 2020-05-15 北京百度网讯科技有限公司 实体归一化处理方法、装置、设备及存储介质
CN111459033A (zh) * 2020-05-29 2020-07-28 珠江水利委员会珠江水利科学研究院 水、肥精量灌溉的灰色预测模糊pid控制方法及设备
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007049282A2 (en) * 2005-10-26 2007-05-03 Cortica Ltd. A computing device, a system and a method for parallel processing of data streams
CN104539484A (zh) * 2014-12-31 2015-04-22 深圳先进技术研究院 一种动态评估网络连接可信度的方法及系统
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN107368844A (zh) * 2017-06-02 2017-11-21 西安电子科技大学 一种基于ap聚类和isa双向聚类的双向聚类方法
CN109165383A (zh) * 2018-08-09 2019-01-08 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111158666A (zh) * 2019-12-27 2020-05-15 北京百度网讯科技有限公司 实体归一化处理方法、装置、设备及存储介质
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质
CN111459033A (zh) * 2020-05-29 2020-07-28 珠江水利委员会珠江水利科学研究院 水、肥精量灌溉的灰色预测模糊pid控制方法及设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661101A (zh) * 2022-04-06 2022-06-24 杭州盈嘉网络科技有限公司 一种基于云平台的分类式数据处理平台
CN115359906A (zh) * 2022-08-22 2022-11-18 温州城市智慧健康有限公司 一种基于健康大数据的智慧健康服务系统
CN116362462A (zh) * 2022-11-18 2023-06-30 麦高(广东)数字科技有限公司 一种基于物联网和大数据分析的全闭环生产管理系统
CN116362462B (zh) * 2022-11-18 2023-10-17 麦高(广东)数字科技有限公司 一种基于物联网和大数据分析的全闭环生产管理系统
CN116561188A (zh) * 2023-04-11 2023-08-08 上海御灵树网络科技有限公司 一种具有筛选功能的大数据分析方法
CN116561188B (zh) * 2023-04-11 2024-06-11 北京联世传奇网络技术有限公司 一种具有筛选功能的大数据分析方法
CN116304931A (zh) * 2023-05-12 2023-06-23 山东英伟电子技术有限公司 一种基于大数据的电力数据挖掘方法
CN116304931B (zh) * 2023-05-12 2023-08-04 山东英伟电子技术有限公司 一种基于大数据的电力数据挖掘方法
CN117668962A (zh) * 2023-10-20 2024-03-08 苏州赛锐德科技有限公司 一种基于建筑信息化的监控方法及系统
CN117290674A (zh) * 2023-11-23 2023-12-26 浙江九州量子信息技术股份有限公司 一种大数据量随机比特序列重码统计和定位的方法和系统
CN117290674B (zh) * 2023-11-23 2024-04-05 浙江九州量子信息技术股份有限公司 一种大数据量随机比特序列重码统计和定位的方法和系统

Similar Documents

Publication Publication Date Title
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
Nagra et al. Hybrid self-inertia weight adaptive particle swarm optimisation with local search using C4. 5 decision tree classifier for feature selection problems
CN112765477B (zh) 信息处理、信息推荐的方法和装置、电子设备和存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN110197207B (zh) 对未归类用户群进行归类的方法及相关装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN116127190B (zh) 一种数字地球资源推荐系统及方法
Concolato et al. Data science: A new paradigm in the age of big-data science and analytics
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
US11989628B2 (en) Machine teaching complex concepts assisted by computer vision and knowledge reasoning
CN112598405B (zh) 一种基于大数据的商业项目数据管理方法及系统
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
US11620550B2 (en) Automated data table discovery for automated machine learning
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
US20220171985A1 (en) Item recommendation with application to automated artificial intelligence
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN114897290A (zh) 业务流程的演化识别方法、装置、终端设备以及存储介质
Thompson Data mining methods and the rise of big data
CN113094584A (zh) 推荐学习资源的确定方法和装置
CN113569130A (zh) 内容推荐方法、装置、设备及可读存储介质
CN113762298A (zh) 相似人群扩展方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210730