CN114860797B - 一种数据的衍生处理方法 - Google Patents

一种数据的衍生处理方法 Download PDF

Info

Publication number
CN114860797B
CN114860797B CN202210256778.3A CN202210256778A CN114860797B CN 114860797 B CN114860797 B CN 114860797B CN 202210256778 A CN202210256778 A CN 202210256778A CN 114860797 B CN114860797 B CN 114860797B
Authority
CN
China
Prior art keywords
data
atoms
attribute
clusters
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210256778.3A
Other languages
English (en)
Other versions
CN114860797A (zh
Inventor
殷光强
李超
唐飞
侯少麒
陈勇生
林若希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210256778.3A priority Critical patent/CN114860797B/zh
Publication of CN114860797A publication Critical patent/CN114860797A/zh
Application granted granted Critical
Publication of CN114860797B publication Critical patent/CN114860797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据应用技术领域,尤其涉及一种数据的衍生处理方法,包括基于原子属性信息依次建立层级数据簇,令这些层级数据簇为显性数据簇;基于显性数据簇挖掘原子间的隐性信息,并通过隐性信息建立隐性数据簇;将隐性数据簇更新至显性数据簇所在的数据库;更具所需关注的属性信息获取数据库中的高频原子,并引入热源注意力机制和双向门控循环网络对高频数据进行处理,进一步结合任务场景的对高频原子进行相关性分析,并基于相关性对高频原子进行排序。本技术方案能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,兼顾数据挖掘的深度,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路。

Description

一种数据的衍生处理方法
技术领域
本发明涉及大数据应用技术领域,尤其涉及一种数据的衍生处理方法。
背景技术
在信息技术和网络技术的推动下,人们的生活发生了翻天覆地的变化。大数据、云计算、物联网等现代技术正在不断改变着人们的生活,人们在使用这些技术的过程中,也不断地产生着数据,并且,这些数据不再是简单的文本和结构化的小样本数据,而是伴随有图像、音频、视频等非结构化的海量数据,当今社会已经进入大数据时代。
与传统数据相比,大数据具有数据量更大、种类繁多、增长速度快、价值密度低等特点。各业务系统每天产生着大量、非结构化的数据,也是大数据的一种,各业务大数据在帮助各企业部门了解业务需求情况、针对性提供产品服务方面起着至关重要的作用。当前,随着社会经济的发展和人口流动性的增加,消费者在不同时间、不同场合的需求存在较大差异。由于信息共享不畅,企业很难分析消费者真实的需求;同时,通过手机、电视、电脑等媒体,消费者浏览的信息量增加,他们对不同出行、购物、饮食的方案优缺点了解增多,形成了一套属于自己的消费观念,这些都显著地增加了企业对消费者进行需求分析的难度。为了更精准的为消费者提供服务,提高对资源的利用以及服务效率,企业需要充分利用大数据技术,寻找自动分析数据、自动分类数据、自动汇总数据、自动发现和描述趋势、自动识别异常,这些都催生了数据挖掘的诞生。简而言之,数据挖掘从大量数据中提取或挖掘知识。
通过以上所述,现有的各业务大数据挖掘系统主要面临以下几个问题:1.大数据量大繁多,不能够有效地获取有价值的数据;2.人群基数大,大数据算法处理起来需要大量的时间成本;3.消费者的接触的信息量增加,企业直接获取用户需求难度增加;4.消费者在不同时间、不同场合的需求存在较大差异,企业难以准确进行智能推荐。
发明内容
本发明的目的在于根据上述各业务大数据挖掘系统面临的问题,提出一种数据的衍生处理方法,一方面能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,另一方面还能够兼顾数据挖掘的深度。两者相结合,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路,提高智能推荐的效率。本发明解决上述技术问题所采用的技术方案如下:
一种数据的衍生处理方法,包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析;
S1,所述显性数据簇的生成:根据数据的属性对原始数据进行若干次分类,并基于每次分类结果依次建立层级数据簇,称任意层级数据簇中的每单个数据为原子,这些层级数据簇为显性数据簇,将所有显性数据簇存入数据库;
S2,所述隐性数据簇的生成:获取相同或不同显性数据簇中不同原子的隐性信息,并基于隐性信息对不同显性数据簇中不同原子进行划分,以形成隐性数据簇;
S3,所述数据簇的处理:将隐性数据簇更新至显性数据簇所在的数据库;
S4,所述相关性分析:获取数据库中所有与任务场景的原子,并根据原子与任务场景的相关性,对所有原子进行排序。
优选的,所述显性数据簇的生成过程中,所述原始数据来自于相关部门的业务数据库,且业务数据库包括人力资源管理数据库。
优选的,所述显性数据簇的生成包括以下步骤:
S11,获取原始数据的属性信息;
S12,基于属性信息,在原始数据的若干属性中选择一种属性作为第一属性;
S13,以第一属性为依据,对原始数据进行分类,并基于分类结果建立若干一级数据组,称所有一级数据组为所述层级数据簇中的一级数据簇,称一级数据簇中的每单个数据为原子,每单个一级数据簇中的原子具有相同的第一属性;
S14,根据业务场景确定迭代阈值n,并基于迭代阈值对原子进行n次发散衍生,且n≥1;其中,原子发散衍生包括以下步骤:
S14-1,基于属性信息选择第m+1属性,以第m+1属性为依据,对隶属于相同或不同的m级数据簇中的原子进行分类,并基于分类结果建立若干m+1级数据组,称所有 m+1级数据组为所述层级数据簇中的m+1级数据簇;其中,m为当前发散衍生的次数, n≥m≥1;
S14-2,判断m是否大于n;若m≤n,则令m=m+1后,回到步骤S14-1;若m>n,则停止对原子的发散衍生。
优选的,所述隐性信息是基于显性数据簇生成后,根据不同原子之间除所述属性信息以外的相关性而产生的隐性属性。
优选的,所述步骤S4中,获取数据库中所有与任务场景的原子包括以下步骤:
S41-1,根据任务场景确定需要关注的属性信息;
S41-2,根据需要关注的属性信息提取所述数据库中的高频原子,所述高频原子即为整个数据库中出现次数相对较多的原子。
优选的,所述步骤S4中,对所有原子进行排序包括以下步骤:
S42-1,引入热源注意力机制和双向门控循环网络;利用热源注意力机制对所述高频原子进行初步处理,以将注意力集中到所需关注的属性信息上;利用双向门控循环网络进行对所述高频原子二次处理,以选择性地忽略原子无需关注的属性信息对任务的影响;
S42-2,将热源注意力机制和双向门控循环网络的处理结果进行汇总,基于汇总结果结合实际情况获取高频原子与业务的相关性;
S42-3,根据高频原子与业务的相关性对原子进行排序。
本发明的有益效果:
本发明针对目前的社会大数据环境,提出了一种数据的衍生处理方法,其中包含了一种原始数据的高效划分方式,能够高效地将海量数据进行处理,同时能够有效降低大数据算法的时间复杂度,结合对隐性关系的挖掘,兼顾数据挖掘的深度,在保障原有大数据系统功能的同时,还能够给各相关部门管理人物信息规划新的思路,提高智能推荐的效率,进一步大幅降低了数据处理量和业务复杂度。
附图说明
图1为本技术方案的实施流程如图。
具体实施方式
为使发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本发明的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种数据的衍生处理方法,主要是针对人物数据的处理,包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析;
S1,所述显性数据簇的生成:根据数据的属性对原始数据进行若干次分类,其中,原始数据来自于相关部门(如学校、企业以及其他社会相关部门)的业务数据库,且业务数据库包括人力资源管理数据库。并基于每次分类结果依次建立层级数据簇,称任意层级数据簇中的每单个数据为原子,这些层级数据簇为显性数据簇,将所有显性数据簇存入数据库。具体包括以下步骤:
S11,获取原始数据的属性信息,如人物数据的属性包括姓名、年龄、性别、学历、婚姻状态、社会关系、出行信息等;
S12,基于属性信息,在原始数据的若干属性中选择一种属性作为第一属性,如选择姓名;
S13,以第一属性为依据,对原始数据进行分类,并基于分类结果建立若干一级数据组,称所有一级数据组为所述层级数据簇中的一级数据簇,称一级数据簇中的每单个数据为原子,每单个一级数据簇中的原子具有相同的第一属性,即每单个一级数据簇中的原子具有相同的姓名;
S14,根据业务场景确定迭代阈值n,并基于迭代阈值对原子进行n次发散衍生,且n≥1;其中,所述业务场景如学校、企业以及其他相关部门,业务场景所涉及的数据量越大,所述迭代阈值n越大,具体可根据实际需求而任意设置;另外,原子发散衍生包括以下步骤:
S14-1,基于属性信息选择第m+1属性,以第m+1属性为依据,对隶属于相同或不同的m级数据簇中的原子进行分类,并基于分类结果建立若干m+1级数据组,称所有 m+1级数据组为所述层级数据簇中的m+1级数据簇;其中,m为当前发散衍生的次数, n≥m≥1。列如n=2,则有:
可选择原子的社会关系作为第二属性,获取原子所处的社会关系,根据原子的不同属性,分别创立相应的属性列表;然后对各个属性列表中统计有社会关系的属性信息进行分类,例如将通话记录、微信记录等划分为人际关系属性;统计经常联系的次数,以判断人际关系的亲密度,然后可建立相应的模型自动判断人际关系,例如妻子、朋友、父母、同事等,相同或不同二级数据簇中具有相同社会关系的原子划分到一个新的数据簇中,且称该数据簇为二级数据簇;
可选择出行信息作为第三属性,获取原子所处的出行信息,根据原子的不同属性,分别创立相应的属性列表;对各个属性列表中统计有出行信息的属性信息进行分类,例如将飞机、高铁、轮船等划分为出行信息;然后将相同或不同二级数据簇中具有相同出行信息的原子划分到一个新的数据簇中,且称该数据簇为三级数据簇;
S14-2,判断m是否大于n;若m≤n,则令m=m+1后,回到步骤S14-1;若m>n,则停止对原子的发散衍生。
S2,所述隐性数据簇的生成:获取相同或不同显性数据簇中不同原子的隐性信息,并基于隐性信息对不同显性数据簇中不同原子进行划分,以形成隐性数据簇;具体的,所述隐性信息是基于显性数据簇生成后,根据不同原子之间除所述属性信息(步骤S1 中所获取的原始数据的属性信息)以外的相关性而产生的隐性属性。具体的,步骤S1 中所获取的原始数据的属性信息是根据人物数据的特征而整理的基本属性,是大部分甚至所有人物数据都具备的属性,如某一奖项只有少部分原子获得,而在显性数据簇形成之前还不知道该奖项的存在,待显性数据簇形成以后,相关原子基于该奖项产生联系,则可认为该奖项为隐性信息。
S3,所述数据簇的处理:将隐性数据簇更新至显性数据簇所在的数据库。
S4,所述相关性分析:获取数据库中所有与任务场景的原子,并根据原子与任务场景的相关性,对所有原子进行排序。具体的:
S41-1,根据任务场景确定需要关注的属性信息,如某学校需要进行相关学习调研,可关注:
年级:**年级;
成绩:**期末考试;
参赛情况:**数学竞赛(隐性信息);
获奖情况:**进步奖(隐性信息)。
S41-2,根据需要关注的属性信息提取所述数据库中的高频原子,所述高频原子即为整个数据库中出现次数相对较多的原子,在本实施例中,则需要关注数据库中的四个数据簇(包括显性数据簇和隐性数据簇),相关原子最多出现四次,最少出现一次,则可以将出现三次和四次的原子都作为高频原子,优选的,将出现四次的原子作为高频原子。
S42-1,引入热源注意力机制和双向门控循环网络;利用热源注意力机制对所述高频原子进行初步处理,以将注意力集中到所需关注的属性信息上;利用双向门控循环网络进行对所述高频原子二次处理,以选择性地忽略原子无需关注的属性信息对任务的影响。其中,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。为引入注意力机制的模型,其编码器是一个RNN,它接受输入序列(x1,x2,…,xt),其中t是输入序列的长度,并将其编码为固定长度的向量 (h1,h2,…,ht)。解码器也是一个RNN,它以一个固定长度的向量ht作为输入,生成一个输出序列(y1,y2,…,ytt),其中tt是输出序列的长度,在每个位置t,ht和st分别表示编码器和解码器的隐状态。网络网络结构中的注意力模块负责自动学习注意力权重αij,它可以自动捕hi(编码器隐藏状态,我们称之为候选状态)和sj(解码器隐藏状态,我们称之为查询状态)之间的相关性。然后,这些注意力权重用于构建内容向量C,该向量作为输入传递给解码器。在每个解码位置j,内容向量cj是编码器所有隐藏状态及其相应注意权的加权和。
Figure SMS_1
注意力权重是通过在体系结构中加入一个额外的前馈神经网络来学习的。该前馈网络学习一个特殊的注意权αij,作为两种状态h(i)和s(j-1)s(j-1)的函数。简单地说,就是用这两种状态作为神经网络的输入,进而学习αij关于他们的函数。
双向门控循环网络中的门控机制可以用来控制记忆单元中的信息有多少需要保留,有多少需要丢弃,新的状态信息又有多少需要保存到记忆单元中等。这使得门控循环神经网络可以学习跨度相对较长的依赖关系,而不会出现梯度消失和梯度爆炸的问题。如果从数学的角度来理解,一般结构的循环神经网络中,网络的状态ht和ht-1之间是非线性的关系,并且参数W在每个时间步共享,这是导致梯度爆炸和梯度消失的根本原因。门控循环神经网络解决问题的方法就是在状态ht和ht-1之间添加一个线性的依赖关系,从而避免梯度消失或梯度爆炸的问题。在经典的循环神经网络中,状态的传输,是从前往后的,但是在有些任务中,某些时刻的输出不仅和之前状态有关,也与之后的状态有关,这就需要双向循环神经网络来解决这类问题。
S42-3,将热源注意力机制和双向门控循环网络的处理结果进行汇总,基于汇总结果结合实际情况获取高频原子与业务的相关性。
S42-4,根据高频原子与业务的相关性对原子进行排序。

Claims (3)

1.一种数据的衍生处理方法,其特征在于:包括显性数据簇的生成、隐性数据簇的生成、数据簇的处理和相关性分析;
S1,所述显性数据簇的生成:根据数据的属性对原始数据进行若干次分类,并基于每次分类结果依次建立层级数据簇,称任意层级数据簇中的每单个数据为原子,这些层级数据簇为显性数据簇,将所有显性数据簇存入数据库;具体的,所述显性数据簇的生成包括以下步骤:
S11,获取原始数据的属性信息;所述原始数据来自于相关部门的业务数据库,且业务数据库包括人力资源管理数据库;属性信息包括姓名、年龄、性别、学历、婚姻状态、社会关系、出行信息;
S12,基于属性信息,在原始数据的若干属性中选择一种属性作为第一属性;
S13,以第一属性为依据,对原始数据进行分类,并基于分类结果建立若干一级数据组,称所有一级数据组为所述层级数据簇中的一级数据簇,称一级数据簇中的每单个数据为原子,每单个一级数据簇中的原子具有相同的第一属性;
S14,根据业务场景确定迭代阈值n,并基于迭代阈值对原子进行n次发散衍生,且n≥1;其中,原子发散衍生包括以下步骤:
S14-1,基于属性信息选择第m+1属性,以第m+1属性为依据,对隶属于相同或不同的m级数据簇中的原子进行分类,并基于分类结果建立若干m+1级数据组,称所有m+1级数据组为所述层级数据簇中的m+1级数据簇;其中,m为当前发散衍生的次数,n≥m≥1;包括当n=2时,则有:
选择原子的社会关系作为第二属性,获取原子所处的社会关系,根据原子的不同属性,分别创立相应的属性列表;然后对各个属性列表中统计有社会关系的属性信息进行分类,通过建立相应的模型自动判断人际关系;相同或不同二级数据簇中具有相同社会关系的原子划分到一个新的数据簇中,且称该数据族为二级数据簇;
选择原子的出行信息作为第三属性,获取原子所处的出行信息,根据原子的不同属性,分别创立相应的属性列表;对各个属性列表中统计有出行信息的属性信息进行分类,然后将相同或不同二级数据簇中具有相同出行信息的原子划分到一个新的数据簇中,且称该数据簇为三级数据簇;
S14-2,判断m是否大于n;若m≤n,则令m=m+1后,回到步骤S14-1;若m>n,则停止对原子的发散衍生;
S2,所述隐性数据簇的生成:获取相同或不同显性数据簇中不同原子的隐性信息,并基于隐性信息对不同显性数据簇中不同原子进行划分,以形成隐性数据簇;其中,所述隐性信息是基于显性数据簇生成后,根据不同原子之间除所述属性信息以外的相关性而产生的隐性属性;
S3,所述数据簇的处理:将隐性数据簇更新至显性数据簇所在的数据库;
S4,所述相关性分析:获取数据库中所有与任务场景相关的原子,并根据原子与任务场景的相关性,对所有原子进行排序。
2.如权利要求1所述一种数据的衍生处理方法,其特征在于,所述步骤S4中,获取数据库中所有与任务场景相关的原子包括以下步骤:
S41-1,根据任务场景确定需要关注的属性信息;
S41-2,根据需要关注的属性信息提取所述数据库中的高频原子,所述高频原子即为整个数据库中出现次数相对较多的原子。
3.如权利要求2所述一种数据的衍生处理方法,其特征在于,所述步骤S4中,对所有原子进行排序包括以下步骤:
S42-1,引入热源注意力机制和双向门控循环网络;利用热源注意力机制对所述高频原子进行初步处理,以将注意力集中到所需关注的属性信息上;利用双向门控循环网络进行对所述高频原子二次处理,以选择性地忽略原子无需关注的属性信息对任务的影响;
S42-2,将热源注意力机制和双向门控循环网络的处理结果进行汇总,基于汇总结果结合实际情况获取高频原子与业务的相关性;
S42-3,根据高频原子与业务的相关性对原子进行排序。
CN202210256778.3A 2022-03-16 2022-03-16 一种数据的衍生处理方法 Active CN114860797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210256778.3A CN114860797B (zh) 2022-03-16 2022-03-16 一种数据的衍生处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256778.3A CN114860797B (zh) 2022-03-16 2022-03-16 一种数据的衍生处理方法

Publications (2)

Publication Number Publication Date
CN114860797A CN114860797A (zh) 2022-08-05
CN114860797B true CN114860797B (zh) 2023-05-26

Family

ID=82627183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256778.3A Active CN114860797B (zh) 2022-03-16 2022-03-16 一种数据的衍生处理方法

Country Status (1)

Country Link
CN (1) CN114860797B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408114A (zh) * 2014-12-22 2017-11-28 亚马逊技术有限公司 基于事务访问模式识别联结关系
CN107609179A (zh) * 2017-09-29 2018-01-19 北京神州绿盟信息安全科技股份有限公司 一种数据处理方法及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4084445B2 (ja) * 1996-07-18 2008-04-30 松下電器産業株式会社 データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
US6697799B1 (en) * 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
JP3964728B2 (ja) * 2002-05-02 2007-08-22 日本電信電話株式会社 情報検索方法及びその装置、並びに該方法の実行プログラム及び該方法の実行プログラムを記録した記録媒体
US10489424B2 (en) * 2016-09-26 2019-11-26 Amazon Technologies, Inc. Different hierarchies of resource data objects for managing system resources
CN108596268A (zh) * 2018-05-03 2018-09-28 湖南大学 一种数据分类方法
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
CN112667869B (zh) * 2019-10-15 2024-05-03 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN110795547B (zh) * 2019-10-18 2023-04-07 腾讯科技(深圳)有限公司 文本识别方法和相关产品
CN110995396B (zh) * 2019-12-19 2022-01-11 中国电力科学研究院有限公司 基于层级结构的用电信息采集系统通信报文的压缩方法
CN111339071B (zh) * 2020-02-21 2022-11-18 苏宁云计算有限公司 一种多源异构数据的处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408114A (zh) * 2014-12-22 2017-11-28 亚马逊技术有限公司 基于事务访问模式识别联结关系
CN107609179A (zh) * 2017-09-29 2018-01-19 北京神州绿盟信息安全科技股份有限公司 一种数据处理方法及设备

Also Published As

Publication number Publication date
CN114860797A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Morais et al. Mapping the structure of semantic memory
Roy et al. Towards cross-domain learning for social video popularity prediction
Chen et al. D-Map: Visual analysis of ego-centric information diffusion patterns in social media
US9477755B2 (en) Question-related identification of relevant social communities
Xu et al. A MapReduce based parallel SVM for email classification
Zhang et al. Large scale microblog mining using distributed MB-LDA
Liu et al. An improved Apriori–based algorithm for friends recommendation in microblog
Nan et al. Real-time monitoring of smart campus and construction of Weibo public opinion platform
Li et al. Exploiting microblog conversation structures to detect rumors
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
Su et al. Classification and interaction of new media instant music video based on deep learning under the background of artificial intelligence
CN114328913A (zh) 一种文本分类方法、装置、计算机设备和存储介质
CN111932148B (zh) 智慧城市评估方法、装置、计算机设备及存储介质
Gkoulalas-Divanis et al. Large-Scale Data Analytics
CN114860797B (zh) 一种数据的衍生处理方法
Agarwal et al. WGSDMM+ GA: A genetic algorithm-based service clustering methodology assimilating dirichlet multinomial mixture model with word embedding
Lian Implementation of computer network user behavior forensic analysis system based on speech data system log
CN116975743A (zh) 行业信息分类方法、装置、计算机设备和存储介质
Hanneman et al. Applying modality and equivalence concepts to pattern finding in social process-produced data
Yang et al. Ott messages modeling and classification based on recurrent neural networks
Wu et al. Learning deep networks with crowdsourcing for relevance evaluation
Fu et al. The Design of Personalized Education Resource Recommendation System under Big Data
CN115858911A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
Zhang et al. A novel hybrid framework based on temporal convolution network and transformer for network traffic prediction
CN107609786B (zh) 一种在线社会网络下构建用户行为偏好变化模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant