CN113536122A - 应用于大数据的业务数据压缩方法及云计算服务器 - Google Patents
应用于大数据的业务数据压缩方法及云计算服务器 Download PDFInfo
- Publication number
- CN113536122A CN113536122A CN202110809293.8A CN202110809293A CN113536122A CN 113536122 A CN113536122 A CN 113536122A CN 202110809293 A CN202110809293 A CN 202110809293A CN 113536122 A CN113536122 A CN 113536122A
- Authority
- CN
- China
- Prior art keywords
- node
- data
- graph
- user event
- event data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种应用于大数据的业务数据压缩方法及云计算服务器,能够对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,得到每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据,从而根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和连边路径传递信息,确定每个用户事件数据中各个图节点的具有时序更新特性的节点连边属性信息,基于每个用户事件数据对应的事件场景信息确定每个用户事件数据中各个图节点的图节点结构关联信息。如此,能够基于不同角度确定节点连边属性信息和图节点结构关联信息。
Description
本申请是申请号为202110035135.1、申请日为2021年01月12日、申请名称为“一种大数据和用户需求的数据管理方法及云计算服务器”的分案申请。
技术领域
本申请涉及大数据和用户分析技术领域,特别涉及一种应用于大数据的业务数据压缩方法及云计算服务器。
背景技术
随着科学技术的快速发展,大数据管理处于不断优化的过程中,取得了一定的成绩,例如从大数据的人工管理形式向大数据的文件管理形式转变,进而向大数据库管理形式转换。
数据库管理形式是大数据管理不断发展的重要成果,也是到目前为止的最新的一个阶段。在计算机技术不断发展的过程中,计算机的内部容量得到了很大程度的提高,并且大数据的管理和维护成本也相应的有所下降。
然而,随着大数据时代的大数据不断增加,一些管理问题逐渐的暴露出来,为大数据管理的发展带来了新的挑战和机遇。
发明内容
本申请实施例之一提供一种应用于大数据的业务数据压缩方法,应用于云计算服务器,所述云计算服务器与多个用户业务终端通信,所述用户业务终端在通过所述云计算服务器进行业务数据处理时,所述云计算服务器对所述用户业务终端对应的业务数据处理过程进行记录以形成原始业务数据处理记录,所述方法包括:基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据;获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息;根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;通过所述使用热度分析结果对所述待处理业务数据进行差异化处理。
本申请实施例之一提供一种云计算服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执上述的方法。
本申请实施例之一提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序在运行时实现上述的方法。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本发明的一些实施例所示的一种示例性一种应用于大数据的业务数据压缩方法和/或过程的流程图;
图2是根据本发明的一些实施例所示的一种示例性应用于大数据的业务数据压缩装置的框图;
图3是根据本发明的一些实施例所示的一种示例性应用于大数据的业务数据压缩系统的框图;
图4是根据本发明的一些实施例所示的一种示例性云计算服务器中硬件和软件组成的示意图,以及
图5是根据本发明的一些实施例所示的一种示例性一种应用于大数据的业务数据压缩方法和/或过程的另一流程图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
发明人经研究和分析发现,随着各类业务办理的云端化,云计算服务器(可以理解为数据库)的数据存储压力不断增大,这会导致一些新的业务数据无法被云计算服务器存储,针对这一问题,现有技术通常是将以前存储的业务数据进行部分删除以释放空间,但是这种处理方式没有考虑到实际的用户需求,可能会影响后续的正常业务办理。
针对上述问题,发明人针对性地提出了一种应用于大数据的业务数据压缩方法及云计算服务器,能够考虑实际的用户需求,进而根据业务数据的使用热度分析结果实现差异化的数据压缩存储,不仅可以提高数据存储效率,还可以确保尽可能多的业务的正常办理,同时,还可以实现对压缩的业务数据的数据恢复,从而提高大数据管理的灵活性。
可以理解,本发明实施例所提供的一种应用于大数据的业务数据压缩方法及云计算服务器可以用于很多领域,包括但不限于:区块链支付、互联网金融、在线办公、在线教育、政企云服务、云游戏服务、社区团购、工业智能化、智慧城市管理、智慧交通调度、智慧医疗、用户画像管理等。
首先,对一种应用于大数据的业务数据压缩方法进行示例性的说明,请参阅图1,是根据本发明的一些实施例所示的一种示例性一种应用于大数据的业务数据压缩方法和/或过程的流程图,一种应用于大数据的业务数据压缩方法可以包括以下步骤S1-步骤S3所描述的技术方案。
步骤S1,基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据。
在本实施例中,云计算服务器与多个用户业务终端通信,所述用户业务终端在通过所述云计算服务器进行业务数据处理时,所述云计算服务器对所述用户业务终端对应的业务数据处理过程进行记录以形成原始业务数据处理记录。原始业务数据处理记录可以包括用户业务终端的不同业务数据处理内容,比如用户业务终端d1从云计算服务器中调用预先存储的支付订单信息进行订单商品核对,又比如用户业务终端d2对存储于云计算服务器中的对应的在线办公文件进行修改。可以理解,原始业务数据处理记录可以是实时更新的,这里基于原始业务数据处理记录进行用户行为数据提取可以是根据预先设定的时段进行用户行为提取,例如,设定时段可以是t1~t2,其中,t2可以是当前时刻,t1可以是当前时刻之间的某一时刻,更为具体地,设定时段可以是一周之前,也可以是一个月之前,在此不作限定。
在本实施例中,用户行为数据可以反映业务用户的多个角度的信息,用户行为数据的常见的存在形式是日志,例如每个绘画表示一次用户行为和对应的服务。以电商领域为例,用户行为数据可以包括网页浏览、购买、点击、评分和评论等。
然而,发明人在研究中发现,日志形式的用户行为数据难以直观地反映和分析用户需求,为此,发明人创新性地将用户行为数据由日志文本数据集转化至图数据集,这样能够提高后续进行用户需求分析和热度分析的效率。
在本实施例中,云计算服务器可以理解为图数据库,图数据库起源于欧拉和图理论,也可以理解为面向图的数据库,图数据的基本含义是以“图”这一数据结构存储和查询数据,因此,图数据库不是指存储图片的数据库。图数据的数据模型主要是以图节点和关系(节点连边)来体现,也可以处理键值对。图数据的优点是可以解决复杂的关系问题。可以理解,在实际业务过程中,用户与用户之间、用户与服务之间以及服务与服务之间可能存在复杂的交错关系,通过将日志行形式的用户行为数据转换为图数据的形式,能够便于对这些关系进行分析,从而精准、全面地确定出业务数据的使用热度分析结果,便于后续进行差异化的数据管理。
在本实施例中,将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据可以包括以下内容:对提取到的用户行为数据依次进行行为事件识别和行为标签校正处理;对经过行为事件识别和行为标签校正处理后的用户行为数据进行节点连边提取;根据节点连边提取结果,将提取到的用户行为数据由日志文本数据集转化至图数据集,获取每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据,得到图数据集上每个图节点的局部节点的节点连边统计数据。在本实施例中,图数据包括以下特征:包含节点和边,节点上有属性(键值对),边具有名字和方向,且存在一个开始节点和一个结束节点,边也可以有属性。如此设计,在进行用户行为数据的形式转换时,可以考虑用户行为数据对应的行为事件和行为标签,从而确保图数据集上每个图节点的局部节点的节点连边统计数据的完整性和正确性。
步骤S2,获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息。
在本实施例中,所述图节点结构关联信息与图节点中心度为正相关关系,所述图节点中心度用于描述图节点的使用热度程度,所述图节点结构关联信息用于描述业务场景针对不同图节点图节点的图节点之间的业务相关性。例如,若图节点node1的图节点中心度为5,则可以理解为图节点node1的使用热度值为5*PV,PV可以理解为基准热度值,基准热度值可以根据实际情况进行设置,例如,基准热度值可以设置为x,x可以是设定时间段内用户针对图节点node1的调用、访问和查询的次数和。
进一步地,时序更新特性用于表征节点连边属性信息和图节点结构关联信息随着时间的推移而更新。节点连边属性信息用于表征与图节点对应的边的相关属性信息,节点连边属性信息可以用于表征不同图节点之间的传递和追溯关系。图节点结构关联信息可以基于键值对确定,也可以基于用户事件确定,因此在本实施例中,获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息,可以通过以下两个实施方式中的其中一个实现,在实施时不作限定。
第一个实施方式,根据预存的键值对更新记录确定图数据集上每个图节点的具有时序更新特性的节点连边属性信息;对所述键值对更新记录进行识别得到键值对更新内容,对所述键值对更新内容进行键值对分类处理,以获取图数据集上每个图节点的图节点中心度;其中,键值对更新内容用于描述有效业务状态下图节点与键值对之间的对应关系;根据图数据集上每个图节点的图节点中心度,确定图数据集上每个图节点的图节点结构关联信息。在本实施例中,预存的键值对更新记录用于对不同节点的属性(键值对)的更新状态进行记录。关于键值对的描述可以参阅现有的专利或者技术论坛,因此在此一一展开说明。
第二个实施方式,对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,得到每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据,所述兴趣节点对应的节点连边统计数据中携带交互行为数据;获取每个用户事件数据中各个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容;根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,确定每个用户事件数据中各个图节点对应的连边路径传递信息;根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和连边路径传递信息,确定每个用户事件数据中各个图节点的具有时序更新特性的节点连边属性信息;基于每个用户事件数据对应的事件场景信息确定每个用户事件数据中各个图节点的图节点结构关联信息。
在本实施例中,用户事件数据用于表征不同的业务事件对应的数据,每个用户事件数据中可以包括多个图节点,这些图节点之间互相连接以形成一个完整的事件,例如用户登录某个软件,这个事件可以包括三个图节点,第一个图节点表征用户打开界面,第二个图节点表征用户输入账号密码,第三个图节点表征用户进行人脸识别验证。当然,用户事件数据还可以包括交互型的业务事件,在这些交互型的业务事件下,每个图节点对应一个动态节点(具有事件状态转换功能的节点),节点连边统计数据则用于记录动态节点的节点连边的变化情况,图节点的兴趣节点用于表征针对该图节点而言可能存在用户兴趣内容的节点。连边路径传递信息可以用于表征不同图节点之间的传递关系或者因果关系。事件场景信息用于区分不同的业务事件,比如交互型场景或者非交互型场景。
可以理解,通过上述两个实施方式,能够基于不同角度确定节点连边属性信息和图节点结构关联信息。因此,在不同的场景下,可以灵活选择上述的其中一个实施,在此不作限定。
在一个可替换的实施方式中,对于第二个实施例而言,所述对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,包括:对于第i个用户事件数据中第k个图节点,确定所述第k个图节点的存在连边关联关系的图节点;根据图数据集对应的用户兴趣识别的加权指示信息指标中分别与所述第k个图节点和所述存在连边关联关系的图节点对应的热度指标使用记录,对所述第k个图节点的动态节点对应的节点连边统计数据和所述存在连边关联关系的图节点的动态节点对应的节点连边统计数据进行加权融合处理,得到所述第i个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据;获取第i个用户事件数据的前一个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据;根据日志文本数据对应的用户兴趣识别结果的加权指示信息,对所述第i个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据、所述第i个用户事件数据的前一个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据进行加权融合处理,得到所述第i个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据。其中,i和k的取值均为正整数,且i的取值不大于所述用户行为数据中的行为事件标签的总数,k的取值不大于所述第i个用户事件数据中包括的图节点总数。
在一个可替换的实施方式中,对于第二个实施例而言,所述获取每个用户事件数据中各个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,包括:在每个具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容的属性内容更新时段内,比较所述属性内容更新时段内包括的m个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据;将得到的m个兴趣节点对应的节点连边统计数据中具有最短有效时长持续值的兴趣节点对应的节点连边统计数据,作为所述m个用户事件数据中第k个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容。
在一个可替换的实施方式中,对于第二个实施例而言,所述根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,确定每个用户事件数据中各个图节点对应的连边路径传递信息,包括:对于第i个用户事件数据中第k个图节点,获取所述第i个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据与所述第i个用户事件数据中第k个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容之间的属性内容配对结果;响应于所述属性内容配对结果满足设定配对条件,将热门业务需求内容作为所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容;响应于所述属性内容配对结果不满足所述设定配对条件,将冷门业务需求内容作为所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容;其中,所述冷门业务需求内容的需求热度值小于所述热门业务需求内容的需求热度值;获取第i个用户事件数据的前一个用户事件数据中第k个图节点的连边路径传递信息;对所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容、所述第i个用户事件数据的前一个用户事件数据中第k个图节点的连边路径传递信息进行传递信息更新处理,得到所述第i个用户事件数据中第k个图节点的连边路径传递信息。
在一个可替换的实施方式中,对于第二个实施例而言,所述根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和连边路径传递信息,确定每个用户事件数据中各个图节点的具有时序更新特性的节点连边属性信息,包括:对于第i个用户事件数据中第k个图节点,获取热门业务需求内容与所述第i个用户事件数据中第k个图节点的连边路径传递信息的业务需求差异的分析结果,得到所述第i个用户事件数据中第k个图节点的具有时序更新特性的业务行为意图信息;获取第i个用户事件数据的前一个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息;获取所述第i个用户事件数据中第k个图节点的连边路径传递信息与所述第i个用户事件数据的前一个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息之间的第一数据使用需求信息;获取所述第i个用户事件数据中第k个图节点的具有时序更新特性的业务行为意图信息与所述第i个用户事件数据中第k个图节点的动态节点对应的节点连边统计数据之间的第二数据使用需求信息;根据所述第一数据使用需求信息与所述第二数据使用需求信息,确定所述第i个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息。
步骤S3,根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;通过所述使用热度分析结果对所述待处理业务数据进行差异化处理。
在本实施例中,每个图节点的局部节点可以理解为与该图节点的节点距离不超过2的节点,例如,针对图节点node1-图节点node2-图节点node3-图节点node4,以及图节点node1-图节点node6-图节点node11-图节点node7而言,图节点node1的局部节点可以是:图节点node2、图节点node3、图节点node6和图节点node11。而目标业务数据处理记录则用于表征业务数据的数据使用热度。因此,为了确保后续的数据使用热度分析的准确性和完整性,需要对图节点的不同类型的节点进行全面分析从而基于热度层面确定出目标业务数据处理记录,为实现这一目的,根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录,可以通过以下方式实现。
根据图数据集上每个图节点的局部节点的节点连边统计数据和具有时序更新特性的节点连边属性信息,确定图数据集上每个图节点的全局节点的节点连边统计数据;根据图数据集上每个图节点的全局节点的节点连边统计数据和获取到的图节点结构关联信息,确定图数据集上每个图节点的热度节点的节点连边统计数据;根据图数据集上每个图节点的热度节点的节点连边统计数据和n个候选业务数据处理记录,确定所述目标业务数据处理记录;其中,n的取值为正整数。在本实施例中,图节点的全局节点可以是与该图节点的节点距离超过2的节点,还是针对图节点node1-图节点node2-图节点node3-图节点node4,以及图节点node1-图节点node6-图节点node11-图节点node7而言,图节点node1的全局节点可以是图节点node4和图节点node7。而图节点的热度节点可以是该图节点的全局节点中的图节点中心度最大的节点。如此设计,能够对图节点的不同类型的节点进行全面分析从而基于热度层面确定出目标业务数据处理记录,这样可以确保后续的数据使用热度分析的准确性和完整性。
进一步地,所述根据图数据集上每个图节点的热度节点的节点连边统计数据和n个候选业务数据处理记录,确定所述目标业务数据处理记录,可以通过以下方式实现:对于第i个用户事件数据,对所述第i个用户事件数据中各个图节点的热度节点的节点连边统计数据进行用户兴趣识别处理,得到所述第i个用户事件数据中各个图节点的用户兴趣内容的热度识别结果;获取在第j个候选业务数据处理记录下所述第i个用户事件数据中各个图节点的用户兴趣内容的热度识别结果的全局热度识别结果;根据获取到的用户兴趣内容的热度识别结果的全局热度识别结果,获取所述第i个用户事件数据在所述第j个候选业务数据处理记录下的业务行为对应的热度分析结果;将得到的n个业务行为对应的热度分析结果中具有最高行为热度值对应的候选业务数据处理记录,作为所述目标业务数据处理记录;其中,i和j的取值为正整数,0<j≤n,所述第i个用户事件数据为当前处理的用户事件数据,所述用户事件数据是通过对所述提取到的用户行为数据进行行为事件识别后得到的,且i的取值不大于所述用户行为数据中的行为事件标签的总数。
可以理解,通过上述对根据图数据集上每个图节点的热度节点的节点连边统计数据和n个候选业务数据处理记录,确定所述目标业务数据处理记录的进一步说明,能够基于热度节点进行热度分析,从而将用户兴趣内容考虑在内,这样可以确保目标业务数据处理记录与用户的实际业务情况相匹配。
进一步地,所述对所述第i个用户事件数据中各个图节点的热度节点的节点连边统计数据进行用户兴趣识别处理,得到所述第i个用户事件数据中各个图节点的用户兴趣内容的热度识别结果,包括:获取第i个用户事件数据的前一个用户事件数据中第k个图节点的用户兴趣内容的热度识别结果;其中,k的取值为正整数;根据预设的用户兴趣识别的加权指示信息,对所述第i个用户事件数据中第k个图节点的热度节点的节点连边统计数据、所述第i个用户事件数据的前一个用户事件数据中第k个图节点的用户兴趣内容的热度识别结果进行加权融合处理,得到所述第i个用户事件数据中第k个图节点的用户兴趣内容的热度识别结果。
在实际实施过程中,为了准确实现待处理业务数据的差异化存储以提高存储效率,同时确保业务处理的正常运行,需要实时准确地获得待处理业务数据的使用热度分析结果,在步骤S3中,根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果,可以包括以下内容。
获取所述目标业务数据处理记录的业务数据调用记录和所述业务数据调用记录对应的动态调用响应信息,所述业务数据调用记录对应的动态调用响应信息包括所述业务数据调用记录中各调用事项的实时事项状态信息。
将所述业务数据调用记录输入到预设的使用热度分析线程中的调用热度分析模型,通过所述调用热度分析模型的调用行为识别网络对所述业务数据调用记录进行调用行为识别得到所述业务数据调用记录的调用行为热度信息。
进一步地,所述通过所述调用热度分析模型的调用行为识别网络对所述业务数据调用记录进行调用行为识别得到所述业务数据调用记录的调用行为热度信息,包括:通过所述调用热度分析模型的调用行为识别网络,对所述业务数据调用记录进行调用行为识别,得到所述业务数据调用记录的多个调用时段的行为热度信息,并对所述多个调用时段的行为热度信息进行整合,得到所述业务数据调用记录的调用行为热度信息。
更进一步地,所述调用行为识别网络包括热度信息整合层以及至少两层依次连接的调用行为识别层;所述通过所述调用热度分析模型的调用行为识别网络,对所述业务数据调用记录进行调用行为识别,得到所述业务数据调用记录的多个调用时段的行为热度信息,并对所述多个调用时段的行为热度信息进行整合,得到所述业务数据调用记录的调用行为热度信息,包括:通过依次连接的所述调用行为识别层对所述业务数据调用记录进行调用行为识别,得到不同调用行为识别层输出的不同调用时段的行为热度信息;通过所述热度信息整合层,对所述不同调用时段的行为热度信息按照从最后一层调用行为识别层到最前一层调用行为识别层的顺序进行整合,得到所述业务数据调用记录的调用行为热度信息。
再进一步地,所述热度信息整合层的数量比所述调用行为识别层少一层;所述通过热度信息整合层,对所述不同调用时段的行为热度信息按照从最后一层调用行为识别层到最前一层调用行为识别层的顺序进行整合,得到所述业务数据调用记录的调用行为热度信息,包括:对输入当前热度信息整合层的行为热度信息进行调用时段转换处理,得到转换后行为热度信息,所述转换后行为热度信息与未参与整合处理的行为热度信息中由最下层调用行为识别层提取的行为热度信息调用时段相同;其中,若当前热度信息整合层为最后一层热度信息整合层,输入所述当前整合层的行为热度信息为最后一层调用行为识别层提取的行为热度信息;通过所述当前热度信息整合层对所述转换后行为热度信息,与所述未参与整合处理的行为热度信息中由最下层调用行为识别层提取的行为热度信息进行行为热度信息整合,将整合后的行为热度信息输入上一层热度信息整合层,其中,若所述当前热度信息整合层为最前一层热度信息整合层,所述当前热度信息整合层得到的整合后的行为热度信息为调用行为热度信息。
通过所述调用热度分析模型的调用响应解析网络,基于所述调用行为热度信息确定所述业务数据调用记录对应的静态调用响应信息,所述业务数据调用记录对应的静态调用响应信息包括所述业务数据调用记录中各调用事项的待处理事项状态信息。
通过所述预设的使用热度分析线程中的用户意图识别模型,基于所述业务数据调用记录的动态调用响应信息和静态调用响应信息,确定所述静态调用响应信息属于所述业务数据调用记录的实时的调用响应信息的第一意图识别结果,以及所述动态调用响应信息属于所述业务数据调用记录的实时的调用响应信息的第二意图识别结果;基于所述第一意图识别结果和第二意图识别结果调整所述使用热度分析线程的线程配置参数,得到已更新的使用热度分析线程。
通过所述已更新的使用热度分析线程对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;其中,所述使用热度分析结果包括所述待处理业务数据中的每个业务数据队列对应的使用热度评价值,每个业务数据队列中包括至少一个业务数据片段。
在上述内容中,使用热度分析线程可以是预先配置得到的,线程可以理解为具有功能性的程序,而调用热度分析模型可以是神经网络模型,调用热度分析模型中可以包括多个具有不同功能的网络/网络层,这些网络可以可以通过预先训练和参数调整实现对应的功能,因此在此不作更多说明。
在本实施例中,业务数据调用记录用于表征不同业务数据在不同时段被调用的情况,调用事项可以是不同用户发起的,也可以是相同用户发起的,实时事项状态信息用于表征被调用的业务数据所处的使用状态。调用行为热度信息可以理解为调用行为的频繁程度。待处理事项状态信息用于表征还没有被进行处理的事项的状态(一般为静态)。意图识别结果则用于分析用户在进行业务数据调用时想做的事情。例如,用户在调用健身器材相关的搜索业务数据时,意图识别结果可以包括“开健身房”、“自用”或者“销售器材”等,在此不作限定。进一步地,通过不同意图识别结果调整使用热度分析线程的线程配置参数,能够实现使用热度分析线程的更新,这样可以避免已更新的使用热度分析线程的时序滞后性,这样一来,可以实时准确地获得待处理业务数据的使用热度分析结果。
可以理解,通过上述不同的功能网络层进行相关数据信息的确认的过程是基于完整调参之后的调用热度分析模型直接执行的,其中的底层原理和现有的神经网络或者机器学习网络类似,因此在此不作更多说明。
在上述内容的基础上,步骤S3所描述的通过所述使用热度分析结果对所述待处理业务数据进行差异化处理,可以包括以下步骤S31-步骤S34。
步骤S31,获取多个业务数据队列的数据片段对应的业务场景信息,以及所述多个业务数据队列在当前业务空窗时段之前的x个连续业务空窗时段对应的x个业务需求倾向信息集,其中,每一业务空窗时段的业务需求倾向信息集包括所述业务数据队列在多个业务类别下的业务需求倾向信息。在本实施例中,业务空窗时段可以用于表征云计算服务器没有进行业务处理的时段。业务类别用于区分不同的业务,业务需求倾向信息用于表征用户在未进行业务处理之前的需求预测信息。
步骤S32,分别获取各业务数据队列的x个业务需求倾向信息集中每一业务需求倾向信息集对应的业务需求变化的轨迹信息集合;其中,每一业务需求变化的轨迹信息集合包括所述业务数据队列在多个业务类别下的业务需求变化的轨迹信息,每一业务需求变化的轨迹信息表示一个业务类别下预估业务需求变化与真实业务需求变化之间的差异信息。在本实施例中,轨迹信息可以是曲线信息或者列表信息,在此不作限定。
步骤S33,利用预存的业务数据压缩记录以及预存的业务数据恢复记录,根据各业务数据队列的数据片段对应的业务场景信息与x个业务需求倾向信息集对应的x个业务需求变化的轨迹信息集合,获取各业务数据队列在当前业务空窗时段的业务需求变化的轨迹信息;其中,所述业务数据压缩记录以及预存的业务数据恢复记录是根据所述云计算服务器的数据存储管理记录得到的。
步骤S34,通过各业务数据队列在当前业务空窗时段的业务需求变化的轨迹信息分别对各业务数据队列的预估业务需求变化进行调整;根据各业务数据队列调整后的预估业务需求变化以及每个业务数据队列对应的使用热度评价值,从所述多个业务数据队列中确定目标业务数据队列,并将所述目标业务数据队列中的至少部分业务数据片段进行压缩存储。在本实施例中,目标业务数据队列可以理解为使用热度评价值相对较低的业务数据队列。
进一步地,在步骤S34的基础上,将所述目标业务数据队列中的至少部分业务数据片段进行压缩存储,包括:确定所述目标业务数据队列中的每个业务数据片段的数据访问指数,所述数据访问指数根据预设时段内的数据访问请求的数量得到,所述数据访问请求是用户业务终端发起的;确定所述目标业务数据队列中的每个业务数据片段的片段影响度,所述片段影响度用于表征所述目标业务数据队列中的每个业务数据片段与所述目标业务数据队列中除该业务数据片段之外的业务数据片段的关联程度;按照所述数据访问指数由高到低的顺序将所述目标业务数据队列中的每个业务数据片段进行排序得到第一排序序列;按照所述片段影响度由高到低的顺序将所述目标业务数据队列中的每个业务数据片段进行排序得到第二排序序列;确定所述目标业务数据队列中的每个业务数据片段在所述第一排序序列下的第一相对位置系数以及在所述第二排序序列下的第二相对位置系数;基于所述第一相对位置系数和所述第二相对位置系数确定所述目标业务数据队列中的每个业务数据片段的压缩存储系数;提取低于设定系数值的压缩存储系数对应的业务数据片段的关键数据,并采用所述关键数据替换对应的业务数据片段。
在本实施例中,预设时段可以根据云计算服务器的内存资源进行适应性调整,若云计算服务器的剩余内存资源较多,可以将预设时段进行适当扩大,若云计算服务器的剩余内存资源较少,可以将预设时段进行适当缩小。
在本实施例中,通过对目标业务数据队列中的业务数据片段分别按照数据访问指数和片段影响度进行排序,能够充分考虑业务数据片段的业务处理过程中的重要程度。
在一些可能的示例中,
目标业务数据队列可以为:[d1,d2,d3,d4,d5,d6]。
第一排序序列可以为:[d3,d1,d5,d4,d6,d2]。
第二排序序列可以为:[d1,d5,d3,d3,d2,d6]。
通过上述排序序列可以发现,业务数据片段d3较为热门,也即较多的用户业务终端存在对业务数据片段d3的使用需求和访问需求,业务数据片段d1的其他业务数据片段的关联程度较大。因此,在这种情况下,如果对d3或者d1进行压缩存储,不仅可能会影响到用户业务终端的业务处理效率,还可以影响到整个目标业务数据队列的数据完整性和正确性,因此,为了灵活地实现业务数据的动态压缩存储,并且确保正常的业务办理,需要选择一些较为冷门或者相对独立的业务数据片段进行压缩存储。
在上述内容的基础上,可以针对目标业务数据队列中的每个业务数据片段进行压缩存储系数的计算,例如,压缩存储系数可以为c0,第一相对位置系数可以为c1,第二相对位置系数可以为c2,那么对于业务数据片段d1而言,压缩存储系数c0(d1)=a*c1(d1)+b*c2(d1),在上述公式中,a和b为第一相对位置系数以及第二相对位置系数分别对应的加权值,一般而言a>b。
同理,c0(d2)=a*c1(d2)+b*c2(d2),c0(d3)=a*c1(d3)+b*c2(d3),c0(d4)=a*c1(d4)+b*c2(d4),c0(d5)=a*c1(d5)+b*c2(d5),c0(d6)=a*c1(d6)+b*c2(d6)。
这样一来,在计算出每个压缩存储系数之后,可以选择低于设定系数值的压缩存储系数对应的业务数据片段作为待压缩的业务数据片段,比如设定系数值可以为0.3,若c0(d2)=0.23,c0(d6)=0.1,则可以将业务数据片段d2和业务数据片段d6确定为待压缩的业务数据片段。
进一步地,对于业务数据片段d2而言,可以提取业务数据片段d2的关键数据,例如,若业务数据片段d2对应的文本信息为:“情绪词语可以用于判断买卖双方的交易意愿”,那么业务数据片段d2的关键数据可以为“情绪词语”、“交易意愿”。在实际应用时,文本信息“情绪词语可以用于判断买卖双方的交易意愿”的所占用云计算服务器的存储空间的容量例如是6kb,那么关键数据“情绪词语”、“交易意愿”占用云计算服务器的存储空间的容量可以是2kb,如此,能够在不造成业务数据片段原有意思的缺失的前提下提高云计算服务器的存储效率。在后续的实施过程中,即便某些用户业务终端需要调用业务数据片段d2,云计算服务器也可以根据关键数据快速地实现数据恢复。
其次,针对上述一种应用于大数据的业务数据压缩方法,本发明实施例还提出了一种示例性的应用于大数据的业务数据压缩装置,如图2所示,应用于大数据的业务数据压缩装置200可以包括以下的功能模块。
数据提取模块210,用于基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据。
信息获取模块220,用于获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息。
数据管理模块230,用于根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;通过所述使用热度分析结果对所述待处理业务数据进行差异化处理。
然后,基于上述的方法实施例和装置实施例,本发明实施例还提出了一种系统实施例,也即应用于大数据的业务数据压缩系统,请结合参阅图3,应用于大数据的业务数据压缩系统30可以包括云计算服务器10和用户业务终端20。其中,云计算服务器10和用户业务终端20通信用以实施上述方法,进一步地,应用于大数据的业务数据压缩系统30的功能性描述如下。
一种应用于大数据的业务数据压缩系统,包括互相通信的云计算服务器和多个用户业务终端;所述用户业务终端在通过所述云计算服务器进行业务数据处理时,所述云计算服务器用于对所述用户业务终端对应的业务数据处理过程进行记录以形成原始业务数据处理记录,进一步地,所述云计算服务器还用于:
基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据;
获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息;
根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;通过所述使用热度分析结果对所述待处理业务数据进行差异化处理。
进一步地,请结合参阅图4,云计算服务器10可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图4所示的结构仅为示意,云计算服务器10还可包括比图2中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
进一步地,对于上述步骤S1-步骤S3而言,请结合参阅图5,可以进行如下总结:步骤A,基于获取到的原始业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;步骤B,通过所述使用热度分析结果对所述待处理业务数据进行差异化处理。
其中,步骤A所描述的基于获取到的原始业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果,包括:基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据;获取图数据集上每个图节点的具有时序更新特性的节点连边属性信息和图节点结构关联信息;根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果。
进一步地,上述总结的进一步实施方式可以参阅对步骤S1-步骤S3的说明。
需要理解的是,针对上述内容,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定相关技术术语所指代的含义,例如针对一些值、系数、权重、指数、因子等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行选取,例如0~1,又例如1~10,再例如50~100,在此均不作限定。
本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等,也可以根据前后文进行毫无疑义地推导和确定。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
Claims (8)
1.一种应用于大数据的业务数据压缩方法,其特征在于,所述方法包括:
对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,得到每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据,所述兴趣节点对应的节点连边统计数据中携带交互行为数据;
获取每个用户事件数据中各个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容;
根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,确定每个用户事件数据中各个图节点对应的连边路径传递信息;
根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和连边路径传递信息,确定每个用户事件数据中各个图节点的具有时序更新特性的节点连边属性信息;
基于每个用户事件数据对应的事件场景信息确定每个用户事件数据中各个图节点的图节点结构关联信息。
2.根据权利要求1所述的方法,其特征在于,该方法应用于云计算服务器,所述云计算服务器与多个用户业务终端通信,所述用户业务终端在通过所述云计算服务器进行业务数据处理时,所述云计算服务器对所述用户业务终端对应的业务数据处理过程进行记录以形成原始业务数据处理记录;
在对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,得到每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据的步骤之前,所述方法还包括:
基于原始业务数据处理记录进行用户行为数据提取;将提取到的用户行为数据由日志文本数据集转化至图数据集,获取图数据集上每个图节点的局部节点的节点连边统计数据;
在基于每个用户事件数据对应的事件场景信息确定每个用户事件数据中各个图节点的图节点结构关联信息的步骤之后,所述方法还包括:
根据图数据集上每个图节点的局部节点的节点连边统计数据、具有时序更新特性的节点连边属性信息和图节点结构关联信息,确定目标业务数据处理记录;根据所述目标业务数据处理记录对已存储的待处理业务数据进行数据使用热度分析,得到所述待处理业务数据的使用热度分析结果;通过所述使用热度分析结果对所述待处理业务数据进行差异化处理;相应的,每个图节点的局部节点为与该图节点的节点距离不超过2的节点。
3.根据权利要求1所述的方法,其特征在于,所述对每个用户事件数据中各个图节点的动态节点对应的节点连边统计数据进行用户兴趣识别处理,包括:
对于第i个用户事件数据中第k个图节点,确定所述第k个图节点的存在连边关联关系的图节点;
根据图数据集对应的用户兴趣识别的加权指示信息指标中分别与所述第k个图节点和所述存在连边关联关系的图节点对应的热度指标使用记录,对所述第k个图节点的动态节点对应的节点连边统计数据和所述存在连边关联关系的图节点的动态节点对应的节点连边统计数据进行加权融合处理,得到所述第i个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据;
获取第i个用户事件数据的前一个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据;
根据日志文本数据对应的用户兴趣识别结果的加权指示信息,对所述第i个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据、所述第i个用户事件数据的前一个用户事件数据中第k个图节点的图数据兴趣节点对应的节点连边统计数据进行加权融合处理,得到所述第i个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据;其中,i和k的取值均为正整数,且i的取值不大于所述用户行为数据中的行为事件标签的总数,k的取值不大于所述第i个用户事件数据中包括的图节点总数。
4.根据权利要求1所述的方法,其特征在于,所述获取每个用户事件数据中各个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,包括:
在每个具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容的属性内容更新时段内,比较所述属性内容更新时段内包括的m个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据;
将得到的m个兴趣节点对应的节点连边统计数据中具有最短有效时长持续值的兴趣节点对应的节点连边统计数据,作为所述m个用户事件数据中第k个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容。
5.根据权利要求1所述的方法,其特征在于,所述根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容,确定每个用户事件数据中各个图节点对应的连边路径传递信息,包括:
对于第i个用户事件数据中第k个图节点,获取所述第i个用户事件数据中第k个图节点的兴趣节点对应的节点连边统计数据与所述第i个用户事件数据中第k个图节点的具有时序更新特性的动态节点对应的节点连边统计数据的节点属性内容之间的属性内容配对结果;
响应于所述属性内容配对结果满足设定配对条件,将热门业务需求内容作为所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容;响应于所述属性内容配对结果不满足所述设定配对条件,将冷门业务需求内容作为所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容;其中,所述冷门业务需求内容的需求热度值小于所述热门业务需求内容的需求热度值;
获取第i个用户事件数据的前一个用户事件数据中第k个图节点的连边路径传递信息;
对所述第i个用户事件数据中第k个图节点的具有业务需求标识的节点属性内容、所述第i个用户事件数据的前一个用户事件数据中第k个图节点的连边路径传递信息进行传递信息更新处理,得到所述第i个用户事件数据中第k个图节点的连边路径传递信息。
6.根据权利要求1所述的方法,其特征在于,所述根据每个用户事件数据中各个图节点的兴趣节点对应的节点连边统计数据和连边路径传递信息,确定每个用户事件数据中各个图节点的具有时序更新特性的节点连边属性信息,包括:
对于第i个用户事件数据中第k个图节点,获取热门业务需求内容与所述第i个用户事件数据中第k个图节点的连边路径传递信息的业务需求差异的分析结果,得到所述第i个用户事件数据中第k个图节点的具有时序更新特性的业务行为意图信息;
获取第i个用户事件数据的前一个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息;
获取所述第i个用户事件数据中第k个图节点的连边路径传递信息与所述第i个用户事件数据的前一个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息之间的第一数据使用需求信息;
获取所述第i个用户事件数据中第k个图节点的具有时序更新特性的业务行为意图信息与所述第i个用户事件数据中第k个图节点的动态节点对应的节点连边统计数据之间的第二数据使用需求信息;
根据所述第一数据使用需求信息与所述第二数据使用需求信息,确定所述第i个用户事件数据中第k个图节点的具有时序更新特性的节点连边属性信息。
7.一种云计算服务器,其特征在于,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行权利要求1-6任一项所述的方法。
8.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809293.8A CN113536122A (zh) | 2021-01-12 | 2021-01-12 | 应用于大数据的业务数据压缩方法及云计算服务器 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809293.8A CN113536122A (zh) | 2021-01-12 | 2021-01-12 | 应用于大数据的业务数据压缩方法及云计算服务器 |
CN202110035135.1A CN112765463B (zh) | 2021-01-12 | 2021-01-12 | 一种大数据和用户需求的数据管理方法及云计算服务器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110035135.1A Division CN112765463B (zh) | 2021-01-12 | 2021-01-12 | 一种大数据和用户需求的数据管理方法及云计算服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536122A true CN113536122A (zh) | 2021-10-22 |
Family
ID=75701615
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110809289.1A Withdrawn CN113536121A (zh) | 2021-01-12 | 2021-01-12 | 基于大数据的数据处理方法及云计算服务器 |
CN202110809293.8A Withdrawn CN113536122A (zh) | 2021-01-12 | 2021-01-12 | 应用于大数据的业务数据压缩方法及云计算服务器 |
CN202110035135.1A Active CN112765463B (zh) | 2021-01-12 | 2021-01-12 | 一种大数据和用户需求的数据管理方法及云计算服务器 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110809289.1A Withdrawn CN113536121A (zh) | 2021-01-12 | 2021-01-12 | 基于大数据的数据处理方法及云计算服务器 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110035135.1A Active CN112765463B (zh) | 2021-01-12 | 2021-01-12 | 一种大数据和用户需求的数据管理方法及云计算服务器 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN113536121A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159465B (zh) * | 2021-05-27 | 2021-12-28 | 农夫铺子发展集团有限公司 | 一种云计算的团购业务互动数据处理方法、服务器及介质 |
CN113419739B (zh) * | 2021-06-22 | 2022-12-06 | 网易(杭州)网络有限公司 | 节点图差异检测方法、装置、电子设备及存储介质 |
CN114186099A (zh) * | 2021-07-13 | 2022-03-15 | 北京金山数字娱乐科技有限公司 | 数据存储方法及装置 |
CN113888133A (zh) * | 2021-10-11 | 2022-01-04 | 郑州博尔易技术服务有限公司 | 一种科技项目数据处理方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10412158B2 (en) * | 2016-07-27 | 2019-09-10 | Salesforce.Com, Inc. | Dynamic allocation of stateful nodes for healing and load balancing |
CN108366109A (zh) * | 2018-02-01 | 2018-08-03 | 王晓峰 | 一种气象数据数值预报云共享平台和数据共享方法 |
CN108881432A (zh) * | 2018-06-15 | 2018-11-23 | 广东省城乡规划设计研究院 | 基于ga算法的云计算集群负载调度方法 |
US12079706B2 (en) * | 2019-04-30 | 2024-09-03 | Clari Inc. | Method for capturing and storing contact information from a physical medium using machine learning |
CN112162999A (zh) * | 2020-10-08 | 2021-01-01 | 翁海坤 | 基于交互式云计算的大数据处理方法及人工智能服务器 |
-
2021
- 2021-01-12 CN CN202110809289.1A patent/CN113536121A/zh not_active Withdrawn
- 2021-01-12 CN CN202110809293.8A patent/CN113536122A/zh not_active Withdrawn
- 2021-01-12 CN CN202110035135.1A patent/CN112765463B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112765463B (zh) | 2021-09-03 |
CN112765463A (zh) | 2021-05-07 |
CN113536121A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765463B (zh) | 一种大数据和用户需求的数据管理方法及云计算服务器 | |
CN107818344B (zh) | 用户行为进行分类和预测的方法和系统 | |
CN111506723B (zh) | 问答响应方法、装置、设备及存储介质 | |
CN111783875A (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
US20240202491A1 (en) | Recommendation method, method for training recommendation model, and related product | |
CN104125584A (zh) | 一种针对网络业务的业务指标实现预测的方法及装置 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN113313464A (zh) | 结合人工智能的云办公大数据处理方法及云办公服务器 | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN112785112A (zh) | 一种风险规则提取方法及风险规则提取装置 | |
CN112995155B (zh) | 金融异常报文识别方法及装置 | |
CN113313463A (zh) | 应用于大数据云办公的数据分析方法及数据分析服务器 | |
CN113468017A (zh) | 应用于区块链的在线业务状态检测方法及业务服务器 | |
CN113472860A (zh) | 大数据和数字化环境下的业务资源分配方法及服务器 | |
CN115879826B (zh) | 一种基于大数据的精细化工工艺质检方法、系统及介质 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN116757476A (zh) | 一种风险预测模型的构建、风险防控方法和装置 | |
CN110674020A (zh) | App智能推荐方法、装置及计算机可读存储介质 | |
CN114358186A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN114513578A (zh) | 外呼方法、装置、计算机设备及存储介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111796988B (zh) | 一种大数据信息监控方法、装置及计算机设备 | |
CN116993218A (zh) | 基于人工智能的指标分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211022 |
|
WW01 | Invention patent application withdrawn after publication |