CN111061697A - 日志数据处理方法、装置、电子设备及存储介质 - Google Patents

日志数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111061697A
CN111061697A CN201911353628.9A CN201911353628A CN111061697A CN 111061697 A CN111061697 A CN 111061697A CN 201911353628 A CN201911353628 A CN 201911353628A CN 111061697 A CN111061697 A CN 111061697A
Authority
CN
China
Prior art keywords
data
log data
target log
weight
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911353628.9A
Other languages
English (en)
Other versions
CN111061697B (zh
Inventor
王项男
谢进超
徐东方
兰劭晖
韩磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201911353628.9A priority Critical patent/CN111061697B/zh
Publication of CN111061697A publication Critical patent/CN111061697A/zh
Application granted granted Critical
Publication of CN111061697B publication Critical patent/CN111061697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种日志数据处理方法、装置、电子设备及存储介质,通过接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征;对第一数据特征进行调整,形成多个第二数据特征;获取原始日志数据;确定原始日志数据中与第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;计算各第二目标日志数据的权重;根据权重对第一目标日志数据进行处理,而本发明中根据第二目标日志数据的权重,对第一目标日志数据进行处理,使各第二目标日志数据获得与之相匹配的计算资源,提高了系统数据处理速度。

Description

日志数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种日志数据处理方法、装置、电子设备及存储介质。
背景技术
随着网络通讯技术和互联网行业的发展,移动网络用户数量和用户活跃度迅速增长,相应的,用户使用移动网络服务所产生的记录和日志也快速增加。网络运营商在对日志数据中的信息进行统计和处理前,需要首先对原始的日志数据进行分类和整理等预处理工序,使预处理后的日志数据能够满足后续不同的使用需求。
目前,对日志数据进行预处理的方法,一般是根据预设的特征维度,对日志数据进行分类处理,并将分类处理后的日志数据发送给其他服务器进行后续的处理步骤。
但是,由于用户分布、用户消费特点的差异,使预处理后输出的日志数据的文件数量、文件大小都存在较大差异,在后续日志数据的分析、查询等处理过程中,造成了计算资源分配不合理,降低系统数据处理速度的问题。
发明内容
本发明提供一种日志数据处理方法、装置、电子设备及存储介质,用以解决日志数据的处理过程中,计算资源分配不合理,降低系统数据处理速度的问题。
根据本公开实施例的第一方面,本发明提供了一种日志数据处理方法,所述方法应用于第一电子设备,所述第一电子设备与第二电子设备进行通信,所述方法包括:
接收第二电子设备发送的数据处理请求,所述数据处理请求中包括:第一数据特征;
对所述第一数据特征进行调整,形成多个第二数据特征;
获取原始日志数据;
确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;
计算各所述第二目标日志数据的权重;
根据所述权重对所述第一目标日志数据进行处理。
可选地,所述确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各所述第二数据特征对应的第二目标日志数据,包括:
根据各所述第二数据特征,对所述原始日志数据进行查询,确定与各所述第二数据特征对应的第二目标日志数据;
将各所述第二目标日志数据的集合,确定为所述第一目标日志数据。
可选地,所述第二数据特征包括至少一个特征维度,每个所述第二数据特征的特征维度对应一个特征值;所述计算各所述第二目标日志数据的权重,包括:
获取所述特征值在对应特征维度下的特征值权重;
计算各所述第二数据特征中每个所述特征维度对应的特征值权重的累乘,作为所述第二目标日志数据的权重。
可选地,所述获取所述特征值在对应特征维度下的特征值权重,包括:
获取所述第一目标日志数据中,与所述特征值对应的第三目标日志数据;
计算所述第三目标日志数据的数据量与所述第一目标日志数据的数据量的比值,作为所述特征值权重。
可选地,所述特征维度包括以下特征的任意一种或多种:账期、号码归属地、业务类型、识别方式和所用域。
可选地,所述根据所述权重对所述第一目标日志数据进行处理,包括:
根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源;
通过所述服务器计算资源,对对应的第二目标日志数据进行处理。
可选地,所述根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源,包括
获取所述服务器计算资源量;
根据所述服务器计算资源量与所述第二目标日志数据对应的权重的乘积,为所述多组第二目标日志数据分配对应的服务器计算资源。
根据本公开实施例的第二方面,本发明提供了一种日志数据处理装置,包括:
请求接收模块,用于接收第二电子设备发送的数据处理请求,所述数据处理请求中包括:第一数据特征;
数据调整模块,用于对所述第一数据特征进行调整,形成多个第二数据特征;
数据获取模块,用于获取原始日志数据;
数据确定模块,用于确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;
数据计算模块,用于计算各所述第二目标日志数据的权重;
数据处理模块,用于根据所述权重对所述第一目标日志数据进行处理。
可选地,所述数据确定模块,具体用于:
根据各所述第二数据特征,对所述原始日志数据进行查询,确定与各所述第二数据特征对应的第二目标日志数据;
将各所述第二目标日志数据的集合,确定为所述第一目标日志数据。
可选地,所述第二数据特征包括至少一个特征维度,每个所述第二数据特征的特征维度对应一个特征值;所述数据计算模块,具体用于:
获取所述特征值在对应特征维度下的特征值权重;
计算各所述第二数据特征中每个所述特征维度对应的特征值权重的累乘,作为所述第二目标日志数据的权重。
可选地,所述数据计算模块在获取所述特征值在对应特征维度下的特征值权重时,具体用于:
获取所述第一目标日志数据中,与所述特征值对应的第三目标日志数据;
计算所述第三目标日志数据的数据量与所述第一目标日志数据的数据量的比值,作为所述特征值权重。
可选地,所述特征维度包括以下特征的任意一种或多种:账期、号码归属地、业务类型、识别方式和所用域。
可选地,所述数据处理模块,具体用于:
根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源;
通过所述服务器计算资源,对对应的第二目标日志数据进行处理。
可选地,所述数据处理模块在根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源时,具体用于:
获取所述服务器计算资源量;
根据所述服务器计算资源量与所述第二目标日志数据对应的权重的乘积,为所述多组第二目标日志数据分配对应的服务器计算资源。
根据本公开实施例的第三方面,本发明提供了一种电子设备,包括:存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行如本公开实施例第一方面任一项所述的日志数据处理方法。
根据本公开实施例的第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本公开实施例第一方面任一项所述的日志数据处理方法。
本发明提供的日志数据处理、装置、电子设备及存储介质,通过接收第二电子设备发送的数据处理请求,所述数据处理请求中包括:第一数据特征;对所述第一数据特征进行调整,形成多个第二数据特征;获取原始日志数据;确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;计算各所述第二目标日志数据的权重;根据所述权重对所述第一目标日志数据进行处理,由于移动网络用户的分布情况和消费情况的差异,造成了第二数据特征对应的第二目标日志数据的数据量的差异,进而导致了计算资源分配不合理的问题,而本发明中根据第二目标日志数据的权重,对所述第一目标日志数据进行处理,使各第二目标日志数据获得与之相匹配的计算资源,提高了系统数据处理速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1a为现有技术中提供的日志数据处理方法应用场景图;
图1b为本发明实施例提供的日志数据处理方法应用场景图;
图2为本发明一个实施例提供的日志数据处理方法的流程图;
图3为本发明另一个实施例提供的日志数据处理方法的流程图;
图4为图3所示实施例中步骤S306的流程图;
图5为本发明再一个实施例提供的日志数据处理方法的流程图;
图6为图5所示实施例中步骤S508的流程图;
图7为本发明一个实施例提供的日志数据处理装置的结构示意图;
图8为本发明一个实施例提供的电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本发明所涉及的名词进行解释:
日志数据:是指移动网络用户在使用运营商提供的移动网络服务时,产生的日志信息,该日志信息记录了用户使用移动网络服务的情况。运营商通过对该日志数据进行处理和分析后,获得需要的有用信息,作为例如计费、评估和优化系统的数据支持。移动网络用户也可以通过运营商提供的日志查询服务,对移动网络服务的使用情况进行查询和核实。
下面对本发明实施例的应用场景进行解释:
图1为本发明实施例提供的日志数据处理方法的一种应用场景图,其中,第一电子设备为日志预处理服务器,第二电子设备为运维用户使用的终端设备。
图1a为现有技术中提供的日志数据处理方法应用场景图,如图1a所示,现有技术中,在接收运维用户使用的终端设备11发送的数据处理请求后,日志预处理服务器12按照该数据处理请求,将第一目标日志数据121中的各第二目标日志数据,平均的分配给后续的处理服务器进行处理13;由于各第二目标日志数据的数据量存在差异,导致后续的处理服务器13出现计算资源分配不合理的问题。
图1b为本发明实施例提供的日志数据处理方法应用场景图,如图1b所示,本发明实施例提供的日志数据处理方法中,在接收运维用户使用的终端设备发送的数据处理请求后,日志预处理服务器按照该第二目标日志数据的权重,对应的分配给后续的处理服务器进行处理;由于各第二目标日志数据的数据量与对应的服务器计算资源相匹配,避免了出现服务器计算资源浪费和服务器计算资源不足的情况,提高了计算资源分配的合理性和系统数据处理速度。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明一个实施例提供的日志数据处理方法的流程图,应用于第一电子设备,第一电子设备与第二电子设备进行通信,如图2所示,本实施例提供的日志数据处理方法包括以下几个步骤:
步骤S201,接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征。
可选地,第一电子设备可以为日志数据服务器;第二电子设备可以为网络运营商的运维用户使用的电子设备,该电子设备可以是一个独立的终端设备,也可以是设置在第二电子设备内部,或与第二电子设备设置在同一个壳体内的电子设备。第一电子设备内存储有未被处理过的原始日志数据,网络运营商的运维用户通过第二电子设备对第一电子设备发送数据处理请求,触发第一电子设备对原始日志数据进行处理。
数据处理请求中包括第一数据特征,第一数据特征用于限定第一电子设备内存储的原始日志数据。由于第一电子设备内存储的原始日志数据很多,其中并不是所有的原始日志数据都是用户所需要的,因此,需要在第一电子设备内存储的原始日志数据中,挑选出一部分感兴趣的日志数据,通过第一数据特征对原始数据日志进行限定,以挑选出具体特定特征的一部分日志数据。例如,第一数据特征为“号码归属地为北京或上海”,即,挑选出归属地为北京或归属地为上海的电话号码对应的日志数据,进而针对“电话号码归属地为北京”和“电话号码归属地为上海”的日志数据进行后续的分析和处理。
步骤S202,对第一数据特征进行调整,形成多个第二数据特征。
具体地,第一数据特征对应一个以上的子特征,各子特征之间存在逻辑“或”的关系,第一数据特征相当于第二数据特征的特征集合。通过对第一数据特征进行调整,可以形成多个第二数据特征。
例如,第一数据特征为:
{“号码归属地为北京”;
或,
“号码归属地为上海”}。
其中,“号码归属地为北京”为第二数据特征A;“号码归属地为上海”为第二数据特征B。
再例如,第一数据特征为:
{“号码归属地为北京且业务类型为语音通话”;
或,
“号码归属地为北京且业务类型为上网流量”;
或,
“号码归属地为上海且业务类型为语音通话”;
或,
“号码归属地为上海且业务类型为上网流量”
}。
其中,“号码归属地为北京且业务类型为语音通话”为第二数据特征C。
“号码归属地为北京且业务类型为上网流量”为第二数据特征D。
“号码归属地为上海且业务类型为语音通话”为第二数据特征E。
“号码归属地为上海且业务类型为上网流量”为第二数据特征F。
其中,可以理解的是,第二数据特征至少为2个。因为当第二数据特征为1个时,则第一数据特征可以完全从原始日志数据中限定出一组特征相同的日志数据,对于特征相同的日志数据,在后续处理中,不需对计算资源进行分配,可以直接将特征相同的日志数据平均分配给所有服务器的计算资源进行处理,不会出现上述提到的计算资源分配不均的问题。
步骤S203,获取原始日志数据。
可选地,第一电子设备内存储有日志数据,该日志数据可以是预设在第一电子设备内的,也可以是第一电子设备在特定触发条件下从其他电子设备内获取的,获取原始日志数据的具体方式可根据需要进行设置和调整,此处不做具体限定。
步骤S204,确定原始日志数据中与第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据。
在确定第一数据特征和第二数据特征后,可以从原始日志数据中确定与第一数据特征和第二数据特征对应的日志数据,即第一目标日志数据和第二目标日志数据。由于第二数据特征有多个,因此,对应的第二目标日志数据也有多组,各第二目标日志数据的集合,即为第一目标日志数据。
步骤S205,计算各第二目标日志数据的权重。
第二目标日志数据与第二数据特征对应,由于各第二数据特征之间存在差异,导致第二目标日志数据的数据量,也相应的存在差异,为了使各第二目标日志数据能够获得与其数据量相匹配的计算资源,进行后续的日志数据处理,因此需要计算各第二目标日志数据的权重。
其中,第二目标日志数据的权重的确定方式可以为通过各第二目标日志数据的数据量进行比较获得,例如,第一目标日志数据由三组第二目标日志数据组成,分别为第二目标日志数据A、第二目标日志数据B和第二目标日志数据C;其中,第二目标日志数据A的数据量为200GB,第二目标日志数据B的数据量为300GB,第二目标日志数据C的数据量为500GB,则第二目标日志数据A的权重为0.2;第二目标日志数据B的权重为0.3;第二目标日志数据A的权重为0.5。
步骤S206,根据权重对第一目标日志数据进行处理。
可选地,根据权重,可以第一目标日志数据中的各第二目标日志数据对应分配不同的计算资源进行后续处理,以实现计算资源的合理分配。其中,对各第二目标日志数据进行后续处理的内容,可以根据需要进行设置或调整,此处不做具体限定。
可选地,根据各第二目标日志数据的权重,对各第二目标日志数据的文件大小和文件个数进行调整,例如,对于高权重的第二目标日志数据,将碎片文件进行合并处理,降低存取碎片文件产生的延迟,提高系统处理效率。或者将大文件拆分为多个小文件进行并行处理,提高日志数据的处理速度。对各第二目标日志数据的文件大小和文件个数进行调整的具体方式,可以根据日志数据的具体情况确定,此处不做具体限定。
本实施例中,通过接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征;对第一数据特征进行调整,形成多个第二数据特征;获取原始日志数据;确定原始日志数据中与第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;计算各第二目标日志数据的权重;根据权重对第一目标日志数据进行处理,由于移动网络用户的分布情况和消费情况的差异,造成了第二数据特征对应的第二目标日志数据的数据量的差异,进而导致了计算资源分配不合理的问题,而本发明中根据第二目标日志数据的权重,对第一目标日志数据进行处理,使各第二目标日志数据获得与之相匹配的计算资源,提高了系统数据处理速度。
图3为本发明另一个实施例提供的日志数据处理方法的流程图,如图3所示,本实施例提供的日志数据处理方法在图2所示实施例提供的日志数据处理方法的基础上,对步骤S204-步骤S205进一步细化,则本实施例提供的日志数据处理方法包括以下几个步骤:
步骤S301,接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征。
步骤S302,对第一数据特征进行调整,形成多个第二数据特征。
步骤S303,获取原始日志数据。
步骤S304,根据各第二数据特征,对原始日志数据进行查询,确定与各第二数据特征对应的第二目标日志数据。
原始日志数据具有特定的数据结构,例如,链表结构或者字典结构。第二数据特征与原始日志数据中的一部分数据具有映射关系,根据第二数据特征进行查询,可以确定原始数据中与之对应的数据,即第二目标日志数据。例如,第二数据特征为{归属地为北京且业务类型为上网流量},根据该第二数据特征对原始日志数据进行查询,可以确定与归属地为北京且业务类型为上网流量的日志数据,该日志数据即为第二目标日志数据。
步骤S305,将各第二目标日志数据的集合,确定为第一目标日志数据。
第一目标日志数据是用户感兴趣的,需要进行后续处理的日志数据。由于多个第二数据特征的集合构成完整的第一数据特征,因此,通过多个第二数据特征,可以对应确定多组第二目标日志数据。多组第二目标日志数据的集合,即为第一数据特征对应的第一目标日志数据。
可选地,第二数据特征包括至少一个特征维度,每个第二数据特征的特征维度对应一个特征值。
特征维度用于描述数据特征的分类方式。例如,“号码归属地”可以为一个特征维度,该特征维度对应的特征值可以为“北京”,还可以为“上海”;“业务类型”可以为一个特征维度,该特征维度对应的特征值可以为“语音通话”,也可以为“上网流量”,还可以为“短信”。当然,可以理解的是,每个特征维度对应的特征值,还可以通过数字、字符、符号及其组合的其他多种方式实现。对于各第二数据特征,可以仅包括一个维度,也可以包括多个维度,但各第二数据特征的特征维度只对应一个特征值,即,第二数据特征为不可再分的最小特征单位。
可选地,特征维度包括以下特征的任意一种或多种:账期、号码归属地、业务类型、识别方式和所用域。
步骤S306,获取特征值在对应特征维度下的特征值权重。
特征值权重为特征值对应的数据量在该特征维度下的占比。
可选地,如图4所示,步骤S306包括步骤S3061、S3062两个具体的实现步骤:
步骤S3061,获取第一目标日志数据中,与特征值对应的第三目标日志数据。
第一目标日志数据为需要进行后续处理的数据。第三目标日志数据为第一目标日志数据中特征值所对应的日志数据,例如,特征值所在的特征维度为“号码归属地”,特征值为“北京”,则第三目标日志数据为第一目标日志数据中所有符合号码归属地为北京特征的日志数据,即第三目标日志数据。
步骤S3062,计算第三目标日志数据的数据量与第一目标日志数据的数据量的比值,作为特征值权重。
在确认特征值对应的第三目标日志数据和第一目标日志数据后,将第三目标日志数据的数据量与第一目标日志数据的数据量的比值,作为特征值权重。例如,特征维度为“号码归属地”,对应特征值为“北京”的第三目标日志数据的数据量为1TB,第一目标日志数据的数据量为10TB;则特征值权重为0.1。即,“号码归属地”为“北京”的日志数据量占全部待后续处理的第一目标日志数据的数据量的权重为0.1。
步骤S307,计算各第二数据特征中每个特征维度对应的特征值权重的累乘,作为第二目标日志数据的权重。
根据第二数据特征的特征维度的数量,依次将每个特征维度对应的特征值权重相乘,即可得到满足所有特征值所对应条件的第二数据特征的第二目标日志数据的权重。第二目标日志数据的权重的计算公式如(1)所示。
Figure BDA0002335317200000111
其中,Ln为第n组第二目标日志数据的权重;N为第n组第二目标日志数据对应的第二数据特征的特征维度数量;wi为第i个特征维度对应的特征值权重。
例如,第二数据特征包括3个特征维度,分别为:
“号码归属地”,对应特征值V1=“北京”;
“业务类型”,对应特征值V2=“语音通话”;
“账期”,对应特征值V3=“201912”。
对应的特征值权重,分别为:
W1=0.2;W2=0.3;W3=0.1。
则第二数据特征的权重为:L=0.2*0.3*0.1=0.006。
本实施例步骤中,通过获取特征值在对应特征维度下的特征值权重,并计算各第二数据特征中每个特征维度对应的特征值权重的累乘,作为第二目标日志数据的权重,由于当第二数据特征的数量较多时,如果直接根据第二数据特征对原始日志数据进行搜索和查询,会导致重复的对原始数据中全部数据的进行访问,降低数据的处理效率,而通过计算特征值权重的累乘确定第二目标日志数据的权重,能够有效提高计算效率和系统处理速度。
步骤S308,根据权重对第一目标日志数据进行处理。
本实施例中,步骤S301-步骤S303、步骤S308的实现方式与本发明图2所示实施例中的步骤S201-步骤S203、步骤S206的实现方式相同,在此不再一一赘述。
图5为本发明另一个实施例提供的日志数据处理方法的流程图,如图5所示,本实施例提供的日志数据处理方法在图4所示实施例提供的日志数据处理方法的基础上,对步骤S308进行了细化,则本实施例提供的日志数据处理方法包括以下几个步骤:
步骤S501,接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征。
步骤S502,对第一数据特征进行调整,形成多个第二数据特征。
步骤S503,获取原始日志数据。
步骤S504,根据各第二数据特征,对原始日志数据进行查询,确定与各第二数据特征对应的第二目标日志数据。
步骤S505,将各第二目标日志数据的集合,确定为第一目标日志数据。
步骤S506,获取特征值在对应特征维度下的特征值权重。
步骤S507,计算各第二数据特征中每个特征维度对应的特征值权重的累乘,作为第二目标日志数据的权重。
步骤S508,根据权重,对各第二目标日志数据分配对应的服务器计算资源。
第二目标日志数据的权重可以衡量第二目标日志数据在所有需要处理的日志数据中的占比,因此,根据权重对各第二目标日志数据分配对应的服务器计算资源,可以使日志数据的数据量与计算资源相匹配,避免计算资源浪费和计算资源不足的情况出现。
可选地,如图6所示,步骤S508包括步骤S5081、S5082两个具体的实现步骤:
步骤S5081,获取服务器计算资源量。
服务器计算资源为后续对第一目标日志数据进行处理的电子设备,例如,服务器。服务器计算资源量,即为用于计算的服务器所具有的全部运算能力的总和。
步骤S5082,根据服务器计算资源量与第二目标日志数据对应的权重的乘积,为多组第二目标日志数据分配对应的服务器计算资源。
可选地,第二目标日志数据分配对应的服务器计算资源的计算公式如(2)所示:
Rn=k×Ln (2)
其中,Rn为第n组第二目标日志数据分配的对应的服务器计算资源;k为服务器计算资源量;Ln为第n组第二目标日志数据的权重。
例如,服务器计算资源量为k=1000。第i个第二数据特征的权重为:Li=0.006。即与第i个第二数据特征对应的第i组第二目标日志数据在全部待处理日志数据中的占比为0.006。
则第i组第二目标日志数据分配的服务器计算资源为:Ri=1000*0.006=6。
可选地,第二目标日志数据分配对应的服务器计算资源的另一种计算公式如(3)所示:
Figure BDA0002335317200000131
其中,Rn为第n组第二目标日志数据分配的对应的服务器计算资源;k为服务器计算资源量;Ln为第n组第二目标日志数据的权重。
步骤S509,通过服务器计算资源,对对应的第二目标日志数据进行处理。
对第二目标日志数据进行对应的服务器计算资源分配后,第二目标日志数据获得了与其的数据量相匹配的服务器计算资源,利用该服务器计算资源,对对应的第二目标日志数据进行处理,提高了服务器资源的利用率,进而提高了系统内日志数据的整体处理速度。
本实施例中,步骤S501-步骤S507的实现方式与本发明图3和图4所示实施例中的步骤S301-步骤S307的实现方式相同,在此不再一一赘述。
图7为本发明一个实施例提供的日志数据处理装置的结构示意图,应用于应用于第一电子设备,如图7所示,本实施例提供的日志数据处理装置7包括:
请求接收模块71,用于接收第二电子设备发送的数据处理请求,数据处理请求中包括:第一数据特征。
数据调整模块72,用于对第一数据特征进行调整,形成多个第二数据特征。
数据获取模块73,用于获取原始日志数据。
数据确定模块74,用于确定原始日志数据中与第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据。
数据计算模块75,用于计算各第二目标日志数据的权重。
数据处理模块76,用于根据权重对第一目标日志数据进行处理。
可选地,数据确定模块74,具体用于:
根据各第二数据特征,对原始日志数据进行查询,确定与各第二数据特征对应的第二目标日志数据。
将各第二目标日志数据的集合,确定为第一目标日志数据。
可选地,第二数据特征包括至少一个特征维度,每个第二数据特征的特征维度对应一个特征值;数据计算模块75,具体用于:
获取特征值在对应特征维度下的特征值权重。
计算各第二数据特征中每个特征维度对应的特征值权重的累乘,作为第二目标日志数据的权重。
可选地,数据计算模块75在获取特征值在对应特征维度下的特征值权重时,具体用于:
获取第一目标日志数据中,与特征值对应的第三目标日志数据。
计算第三目标日志数据的数据量与第一目标日志数据的数据量的比值,作为特征值权重。
可选地,特征维度包括以下特征的任意一种或多种:账期、号码归属地、业务类型、识别方式和所用域。
可选地,数据处理模块76,具体用于:
根据权重,对各第二目标日志数据分配对应的服务器计算资源。
通过服务器计算资源,对对应的第二目标日志数据进行处理。
可选地,数据处理模块76在根据权重,对各第二目标日志数据分配对应的服务器计算资源时,具体用于:
获取服务器计算资源量。
根据服务器计算资源量与第二目标日志数据对应的权重的乘积,为多组第二目标日志数据分配对应的服务器计算资源。
其中,请求接收模块71、数据调整模块72、数据获取模块73、数据确定模块74和数据计算模块75依次连接。本实施例提供的日志数据处理装置7可以执行如图2-6任一项所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明一个实施例提供的电子设备的示意图,如图7所示,本实施例提供的电子设备包括:存储器801,处理器802以及计算机程序。
其中,计算机程序存储在存储器801中,并被配置为由处理器802执行以实现本发明图2-图6所对应的实施例中任一实施例提供的日志数据处理方法。
其中,存储器801和处理器802通过总线803连接。
相关说明可以对应参见图2-图6的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
本发明一个实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本发明图2-图6所对应的实施例中任一实施例提供的日志数据处理方法。
其中,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种日志数据处理方法,其特征在于,所述方法应用于第一电子设备,所述第一电子设备与第二电子设备进行通信,所述方法包括:
接收第二电子设备发送的数据处理请求,所述数据处理请求中包括:第一数据特征;
对所述第一数据特征进行调整,形成多个第二数据特征;
获取原始日志数据;
确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;
计算各所述第二目标日志数据的权重;
根据所述权重对所述第一目标日志数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各所述第二数据特征对应的第二目标日志数据,包括:
根据各所述第二数据特征,对所述原始日志数据进行查询,确定与各所述第二数据特征对应的第二目标日志数据;
将各所述第二目标日志数据的集合,确定为所述第一目标日志数据。
3.根据权利要求1所述的方法,其特征在于,所述第二数据特征包括至少一个特征维度,每个所述第二数据特征的特征维度对应一个特征值;所述计算各所述第二目标日志数据的权重,包括:
获取所述特征值在对应特征维度下的特征值权重;
计算各所述第二数据特征中每个所述特征维度对应的特征值权重的累乘,作为所述第二目标日志数据的权重。
4.根据权利要求3所述的方法,其特征在于,所述获取所述特征值在对应特征维度下的特征值权重,包括:
获取所述第一目标日志数据中,与所述特征值对应的第三目标日志数据;
计算所述第三目标日志数据的数据量与所述第一目标日志数据的数据量的比值,作为所述特征值权重。
5.根据权利要求3或4所述的方法,其特征在于,所述特征维度包括以下特征的任意一种或多种:账期、号码归属地、业务类型、识别方式和所用域。
6.根据权利要求1所述的方法,其特征在于,所述根据所述权重对所述第一目标日志数据进行处理,包括:
根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源;
通过所述服务器计算资源,对对应的第二目标日志数据进行处理。
7.根据权利要求6所述的方法,其特征在于,所述根据所述权重,对各所述第二目标日志数据分配对应的服务器计算资源,包括
获取所述服务器计算资源量;
根据所述服务器计算资源量与所述第二目标日志数据对应的权重的乘积,为所述多组第二目标日志数据分配对应的服务器计算资源。
8.一种日志数据处理装置,其特征在于,所述装置包括:
请求接收模块,用于接收第二电子设备发送的数据处理请求,所述数据处理请求中包括:第一数据特征;
数据调整模块,用于对所述第一数据特征进行调整,形成多个第二数据特征;
数据获取模块,用于获取原始日志数据;
数据确定模块,用于确定所述原始日志数据中与所述第一数据特征对应的第一目标日志数据和与各第二数据特征对应的第二目标日志数据;
数据计算模块,用于计算各所述第二目标日志数据的权重;
数据处理模块,用于根据所述权重对所述第一目标日志数据进行处理。
9.一种电子设备,其特征在于,包括:存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的日志数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的日志数据处理方法。
CN201911353628.9A 2019-12-25 2019-12-25 日志数据处理方法、装置、电子设备及存储介质 Active CN111061697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911353628.9A CN111061697B (zh) 2019-12-25 2019-12-25 日志数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353628.9A CN111061697B (zh) 2019-12-25 2019-12-25 日志数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111061697A true CN111061697A (zh) 2020-04-24
CN111061697B CN111061697B (zh) 2023-06-13

Family

ID=70303436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911353628.9A Active CN111061697B (zh) 2019-12-25 2019-12-25 日志数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111061697B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463542A (zh) * 2020-12-15 2021-03-09 深圳供电局有限公司 日志异常原因诊断方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753461A (zh) * 2010-01-14 2010-06-23 中国建设银行股份有限公司 实现负载均衡的方法、负载均衡服务器以及集群系统
US20140289735A1 (en) * 2012-03-02 2014-09-25 Nec Corporation Capacity management support apparatus, capacity management method and program
CN104636397A (zh) * 2013-11-15 2015-05-20 阿里巴巴集团控股有限公司 用于分布式计算的资源分配方法、计算加速方法以及装置
CN107133110A (zh) * 2017-04-27 2017-09-05 中国科学院国家授时中心 基于集群并行运算的gnss导航信号海量数据快速处理方法
CN108234245A (zh) * 2018-01-09 2018-06-29 上海帝联网络科技有限公司 日志内容及日志数据的筛选方法、装置、系统、可读介质
US20190018852A1 (en) * 2017-07-14 2019-01-17 Ricoh Company, Ltd. Information processing apparatus, information processing system, and information processing method
CN109324898A (zh) * 2018-08-27 2019-02-12 北京奇虎科技有限公司 一种业务处理方法及系统
CN109597800A (zh) * 2018-12-11 2019-04-09 东软集团股份有限公司 一种日志分发方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753461A (zh) * 2010-01-14 2010-06-23 中国建设银行股份有限公司 实现负载均衡的方法、负载均衡服务器以及集群系统
US20140289735A1 (en) * 2012-03-02 2014-09-25 Nec Corporation Capacity management support apparatus, capacity management method and program
CN104636397A (zh) * 2013-11-15 2015-05-20 阿里巴巴集团控股有限公司 用于分布式计算的资源分配方法、计算加速方法以及装置
CN107133110A (zh) * 2017-04-27 2017-09-05 中国科学院国家授时中心 基于集群并行运算的gnss导航信号海量数据快速处理方法
US20190018852A1 (en) * 2017-07-14 2019-01-17 Ricoh Company, Ltd. Information processing apparatus, information processing system, and information processing method
CN108234245A (zh) * 2018-01-09 2018-06-29 上海帝联网络科技有限公司 日志内容及日志数据的筛选方法、装置、系统、可读介质
CN109324898A (zh) * 2018-08-27 2019-02-12 北京奇虎科技有限公司 一种业务处理方法及系统
CN109597800A (zh) * 2018-12-11 2019-04-09 东软集团股份有限公司 一种日志分发方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋永生;吴新华;: "基于Python的Moodle学习平台日志分析" *
张航: "云计算环境下基于成本约束的有向无环图工作流调度研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463542A (zh) * 2020-12-15 2021-03-09 深圳供电局有限公司 日志异常原因诊断方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111061697B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN109005056B (zh) 基于cdn应用的存储容量评估方法和装置
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
JP2019517748A (ja) エージェント割振りの方法、装置、サーバーおよび記録媒体
CN106453146B (zh) 私有云计算资源的分配方法、系统、设备和可读存储介质
CN109033404B (zh) 日志数据处理方法、装置和系统
CN107360117B (zh) 数据处理的方法、装置及系统
CN105094981A (zh) 一种数据处理的方法及装置
CN102932271A (zh) 负载均衡的实现方法和装置
CN109347982A (zh) 一种数据中心的调度方法及装置
CN105872082B (zh) 基于容器集群负载均衡算法的细粒度资源响应系统
CN113419856B (zh) 智能限流方法、装置、电子设备及存储介质
CN111061697B (zh) 日志数据处理方法、装置、电子设备及存储介质
CN109285015A (zh) 一种虚拟资源的分配方法及系统
CN112468546B (zh) 账号位置确定方法、装置、服务器和存储介质
CN114626730A (zh) 资源分配方法、装置、计算机设备及计算机可读存储介质
CN113645292A (zh) 一种物联网设备的分配方法
CN110677463B (zh) 并行数据传输方法、装置、介质及电子设备
CN112231066A (zh) 一种基于jvm内存使用的优化处理方法及系统
CN106385385B (zh) 资源分配方法及装置
CN110708374A (zh) 一种边缘节点的分配方法、分配装置及可读存储介质
CN116405500B (zh) 基于数据分析和云计算数据分析系统资源管理方法
CN111091391A (zh) 用于识别作弊用户的方法、装置和电子设备
CN115208831B (zh) 请求处理方法、装置、设备及存储介质
CN112667627B (zh) 一种数据处理方法及装置
CN117764621A (zh) 客户筛选方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant