CN107748756A - 数据采集方法、移动终端及可读存储介质 - Google Patents
数据采集方法、移动终端及可读存储介质 Download PDFInfo
- Publication number
- CN107748756A CN107748756A CN201710856202.XA CN201710856202A CN107748756A CN 107748756 A CN107748756 A CN 107748756A CN 201710856202 A CN201710856202 A CN 201710856202A CN 107748756 A CN107748756 A CN 107748756A
- Authority
- CN
- China
- Prior art keywords
- reading
- assembly
- read
- data
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
Abstract
本发明公开了一种数据采集方法、移动终端及可读存储介质。所述数据采集方法包括以下步骤:根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志,并将目标日志存入临时储存组件;根据临时存储组件的剩余容量调整读取组件的读取速度,控制发送组件读取临时存储组件中的目标日志;控制发送组件发送目标日志,并根据目标日志更新读取记录。本发明使用缓存作为临时存储组件的存储介质,并且由发送组件进行读取记录的储存,提升了读取与发送的速度,并且避免了读取与发送速度不匹配导致的数据丢失。
Description
技术领域
本发明涉及数据统计领域,尤其涉及一种数据采集方法、移动终端及可读存储介质。
背景技术
在数字统计领域,通过flume等数据采集系统已经成为数据采集的主要方式。而flume等数据采集系统的工作流程为接收数据,将获取到的数据存临时缓存组件。在由临时储存组件将日志文件储存在本地中,最后由发送组件发往远程地址,从而使得用户获取到日志文件。而这样的数据采集有个最大的弊端,就是读取速度大于发送速度时,会导致数据采集系统出错,从而导致数据丢失并且用户无法及时获取到想要的数据等情况。
发明内容
本发明的主要目的在于提供一种数据采集方法、移动终端以及可读存储介质,旨在解决在进行数据采集时,由于数据的读取与发送速度不匹配且难以调节所造成的数据丢失等问题。
为实现上述目的,本发明提供一种数据采集方法,所述数据采集方法包括以下步骤:
根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志,并将目标日志存入临时储存组件;
根据临时存储组件的剩余容量调整读取组件的读取速度,控制发送组件读取临时存储组件中的目标日志;
控制发送组件发送目标日志,并根据目标日志更新读取记录。
可选地,所述根据储存的读取记录对日志文件进行读取的步骤之前包括:
监视源日志文件夹,获取所有符合配置要求的待使用日志文件,并由待使用日期文件构成日志文件夹。
可选地,所述根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志的步骤包括:
检测储存空间中是否储存有读取记录,根据检测结果判断对日志文件是否为首次进行数据采集。
若检测到储存空间中没有读取记录,则判定为首次读取,由初始位置开始读取;
若检测到储存空间中有读取记录,则判定为非首次读取,由读取位置所记录的最后读取位置开始读取。
可选地,所述将目标日志存入临时储存组件的步骤包括:
将目标日志存入临时储存组件所设置的缓存空间中。
可选地,所述根据临时存储组件的剩余容量调整读取组件的读取速度的步骤包括:
检测临时储存组件的当前剩余容量;
根据当前剩余容量的检测结果调节读取组件的读取速度。
可选地,所述根据当前剩余容量的检测结果调节读取组件的读取速度的步骤包括:
若比对得出临时存储组件的当前剩余容量大于预设最小容量,则控制读取组件继续进行读取目标日志;
若比对得出临时存储组件的已用容量小于等于到预设最小容量,则控制读取组件暂停读取目标日志。
可选地,所述控制发送组件发送目标日志的步骤还包括:
将读取的数据通过发送组件发送至预设远端地址。
可选地,所述根据目标日志更新读取记录的步骤包括:
检测目标日志的类型是否为可更新日志;
若目标日志的类型不为可更新日志文件,则将读取记录更新为当前日志文件的下一个日志文件的初始位置;
若目标日志的类型为可更新日志文件,则将读取记录更新为当前日志文件的最后读取位置。
此外,为实现上述目的,本发明还提供一种移动终端,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序被所述处理器执行时实现如上所述数据采集方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储的数据采集程序,所述数据采集程序被处理器执行时实现如上所述的数据采集方法的步骤。
本发明提出的数据采集方法,在用户通过数据采集系统进行数据采集时,显著的提升数据采集的整体效率,以及能够根据数据的发送速度调节数据的读取速度,并在读取的数据达到一定容量时,暂停继续读取数据,直至将已经读取的数据全部发送,避免了因为速度与发送速度不匹配导致的数据异常,而且将临时储存组件的存储介质由磁盘变为缓存,大大增加了数据采集的效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为发明实施例提供的一种通信网络系统架构图;
图3为本发明数据采集方法第一实施例的流程示意图;
图4为本发明数据采集方法另一实施例中步骤S20的细化流程示意图;
图5为数据采集系统的一场景示意图;
图6为数据采集系统的另一场景示意图;
图7为数据采集系统中读取记录的一场景示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测到重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是上述终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动终端硬件结构以及通信网络系统,提出本发明方法各个实施例。
参照图3,本发明第一实施例提供一种数据采集方法,所述数据采集方法包括:
步骤S10,根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志,并将目标日志存入临时储存组件;
具体地,通过flune等数据采集系统在进行数据采集时,需要通过Source(flume数据采集系统中的读取组件)将需要进行采集的日志文件进行读取,来获取日志文件所记录的数据。而从日志文件的什么位置开始进行读取则根据储存的最后读取位置来决定,若是没有储存的最后读取位置则由初始位置开始进行读取,并且将读取得到的数据存入临时储存组件,直至临时储存组件中的数据达到预设最大容量,则停止读取数据。
步骤S20,根据临时存储组件的剩余容量调整读取组件的读取速度,控制发送组件读取临时存储组件中的目标日志;
具体地,channel(flume数据采集系统中的临时储存组件)设置有预设最大容量,在临时储存组件中的数据达到预设最大储存容量时,发送组件将读取临时储存组件中的数据,并且在听读取组件继续读取日志文件的数据。
步骤S30控制发送组件发送目标日志,并根据目标日志更新读取记录。
具体地,sink(flume数据采集系统中的发送组件)在读取数据后,会根据设置的地址将数据发送至远端服务器,在发送完毕后记录本次发送的数据在日志文件中的位置,并进行储存。
在数据统计领域,使用Flume(一种高效且可靠的日志采集、聚合和传输的系统)用于采集数据是较为常见的做法。具体的流程为:读取组件不断接收数据,然后将数据临时储存组件写入本地磁盘(例如硬盘等常用的储存设备,用于故障后恢复数据)。另一线程,发送组件不断从临时储存组件中读取数据,并发往服务端(场景示意图如图5)。然而上述方案在出现持续的日志生产端的写入速度大于日志发送端的读取速度时,则会出现以下问题:上述的方法属于被动获取数据,因此当临时储存组件容量达到上限之后(读取的速度大于发送的速度时,很容易出现这种情况),由于临时储存组件无法停止接收数据,因而会导致程序出现数据异常。但是在数据统计领域生产者(读取数据的速度)-消费者(发送数据的速度)速度不匹配,是很正常的现象。而为了解决由此现象导致的数据异常问题,应该是在临时储存组件的容量达到上限(预设最大容量)时,能够停止继续读取数据,使得临时储存组件能够有机会通过发送释放自身的容量空间,以保持持续的数据采集。
本发明为了解决读取与发送速度不匹配的问题,首先通过对临时储存组件进行了改变,现有技术中的临时储存组件是将数据储存在磁盘中,而日志文件也是储存在磁盘中的,因此数据由日志文件到临时储存组件再到发送的过程是由磁盘读取,存入磁盘,再由磁盘读取的过程,由于磁盘对于数据的处理速度较慢,因此也是导致临时储存组件容易达到容量上限,而数据由磁盘读取,再存入磁盘的过程冗余较高,并且磁盘上的日志文件本身就是一种持久化、可靠的形式,没必要再持久化一次。因而本发明则选择了使用缓存作为临时储存组件的存储介质,缓存相比磁盘,写入与读取的速度都有较大的优势,因此使用缓存作为临时储存组件的存储介质能够有效地提升其读取与写入的速度,并且也能够一定程度增加数据采集的整体效率(场景示意图如图6)。
在现有技术中,临时储存组件还有储存与replay(重新读取)读取记录(即最后读取的位置,示意图如图7)的功能,而本发明中临时储存组件的的存储介质为缓存,缓存的特点是速度快,但是无法对数据进行永久储存(断电即掉的非永久储存),所以使用缓存作为存储介质的临时储存组件已经不具备储存读取记录的功能。因此本发明将记录读取记录的转移至发送组件中,发送组件在将储存的数据读取并发送至远端服务器后,会记录最后读取的位置信息(包括最后读取的文件名,最后读取的行数等信息),而读取组件在对开始读去之前,会获取由发送组件储存的读取记录,并根据读取记录中的信息决定读取的初始位置。在读取组件中读取文件最后被读取的信息,而发送组件则负责记录文件最后被读取的信息,由此则使得临时储存组件的功能单一化(仅用以储存读取组件读取的),因而临时储存组件变成了数据缓存的角色,而非过去的实际储存,而通过使用内存等缓存作为存储介质,能够完美的契合临时储存组件的功能,并且最大限度的增加存取的速度。
通过将临时储存组件的存储介质由磁盘替换为缓存,显著地提高了临时储存组件储存与读取的效率,并且将记录与加载读取记录的功能分散至读取组件与发送组件中,在发送组件将数据发送至远端服务器后才会更新读取记录,因为只有在发送完之后才会更新读取记录,因此避免意外情况下(数据采集的过程中断电等)的数据丢失(若是断电等意外情况发生,未发送的数据由于读取记录为更新,因此会被重新加载并发送)。并且由于读取速度的提升,以及临时读取组件容量达到预设最大容量时,停止继续读取数据,保证了数据读取与发送的平衡,避免了由于发送速度慢于读取速度所导致的数据异常现象。本发明无需操作人员进行外部配置的调整与更改,也无需增加外部设备,因此实现成本低廉,且使得数据采集效率增加,以及数据采集的报错率降低。
进一步地,步骤S10,根据储存的读取记录对日志文件进行读取的步骤之前包括:
步骤S11,监视源日志文件夹,获取所有符合配置要求的待使用日志文件,并由待使用日期文件构成日志文件夹。
具体地,开始数据采集之前,数据采集系统会监事日志文件夹,获取到日志文件夹中的日志文件的信息,包括日志文件的类型,文件创建与修改日期等。而在数据采集系统中设置有配置文件,用以数据采集的条件,用以准确的获取想要的数据。
日志文件夹中储存的日志文件并非只有一个,而且根据类型不同,其记录的日志内容也会发生改变,日志文件包括事件日志与消息日志,其中事件日志记录系统在执行中发生的事件,以便提供可用于理解系统的活动和诊断问题的跟踪,事件日志对理解复杂系统的活动至关重要,特别是在用户交互较少的应用程序中;消息日志是互联网的中继聊天,即时消息程序,具有聊天功能的对等文件共享客户端或者多人游戏(特别是大型多人在线角色扮演游戏)等程序通常具有自动记录(即保存)文本通信的能力所保存的文本通信内容,消息日志几乎是通用的纯文本文件。而数据采集系统通过对日志文件夹中的日志文件进行监视,获取文件夹中日志文件的基本信息,以便对想要获取的日志文件中的数据进行数据采集。
进一步地,步骤S10,所述根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志的步骤包括:
步骤S12,检测储存空间中是否储存有读取记录,根据检测结果判断对日志文件是否为首次进行数据采集。
具体地,数据采集一般是一个持续的过程,并且根据需求是可以进行中断与暂停,并且在中断时会记录读取的进度,而有无读取记录是判断是否为首次进行数据采集的依据。
步骤S13,若检测到储存空间中没有读取记录,则判定为首次读取,由初始位置开始读取;
具体地,若是未检测出存储空间中储存有日志文件对应的读取记录,则判定本次数据采集为对应日志文件的首次采集,由日志文件的初始位置开始进行数据采集。
步骤S14,若检测到储存空间中有读取记录,则判定为非首次读取,由读取位置所记录的最后读取位置开始读取。
具体地,若是检测出存储空间中储存有日志文件对应的读取记录,则判定本次数据采集为对应日志文件的非首次采集,获取读取记录中记录的日志文件最后采集的位置,并由最后采集的位置开始进行数据采集。
在对日志文件进行数据采集时,首先会检测储存空间中是否储存有该日志文件的读取记录,若是有该日志文件的读取记录,则表明之前对日志文件进行过数据采集,并且数据采集被中断。若没有读取记录,侧判定为首次对该日志文件进行数据采集,因为首次进行数据采集与已经进行过数据采集后再次进行采集的起始位置等采集流程与方式是不同的,因此需要在进行数据采集前进行判断。通过是检测储存空间中是否储存有对应日志文件的读取记录,可以判定出本次数据采集是否为对需要进行采集的日志文件进行的首次数据采集,从而进行相应的数据采集流程。
通过检测是否储存有读取记录,能够判断出本次对日志文件的数据采集是否为首次对该日志文件的数据采集。若是首次进行采集,默认由最早的日志文件的初始位置进行数据采集,首次进行数据采集则表明需要采集该日志文件全部的数据,因此将按照一定顺序(一般以日期顺序,从最早的开始,直至当前时间),将需要进行数据采集的日志文件依次进行数据采集,从而获取所需要采集的全部内容。若是非首次对日志文件进行数据采集,则首先读取存储空间中的读取记录,读取记录中记录了最后读取的日志文件名称,最后读取至文件的什么位置(一般记录读取到哪一行),获取到最后读取的位置后,则从该位置继续进行数据的读取。
本发明中用于记录最后读取位置的组件为发送组件,在发送组件将临时储存组件中的数据全部发送后,发送组件记录最后读取到的位置。而现有技术中是由临时储存组件储存读取记录,而由临时储存组件储存读取记录的弊端是,在临时储存组件更新读取记录时,发送组件并没有将临时储存组件中读取的数据发送,若是此时发送异常(例如断电,数据异常等情况)导致数据采集被中断,那么在此启动数据采集时,由于读取记录已经更新,因此进行数据采集时,则不会再次对该段数据进行读取。由此会导致数据丢失等异常情况。而本发明由发送组件执行读取记录的功能,在发送组件将读取的内容全部发送之后,发送组件才会对读取记录进行更新,并且由读取组件对读取记录进行加载与读取,从而保障了数据采集的有效性,避免了因突发的异常原因导致数据丢失的问题。
进一步地,步骤S10,将目标日志存入临时储存组件的步骤包括:
步骤S15,将目标日志存入临时储存组件所设置的缓存空间中。
具体地,读取组件获取到目标日志后,将数据发送至临时存储组件所设置的缓存空间中进行暂存。
临时储存组件负责将读取组件获取到的日志数据进行暂时的储存,然后由发送组件将数据发送至远端服务器,完成数据采集的过程。由于读取组件的读取速度与发送组件的发送速度不一致,因此需要通过临时储存组件对数据进行中转,由此可以避免读取速度过快而发送速度过慢所导致的数据丢失问题,使得系统能够完成的采集所需的日志数据。
进一步地,参照图4,步骤S20,根据临时存储组件的剩余容量调整读取组件的读取速度的步骤包括:
步骤S21,检测临时储存组件的当前剩余容量,并与最小预设容量进行比对;
具体地,临时储存组件都预设有一个最小容量,表示临时储存组件中储存数据的最少剩余的容量,而空余容量为当前剩余的容量。将临时储存组件当前剩余容量与预设最小容量进行比对,可以判断当前剩余容量是否能够满足储存日志文件的任务,当前剩余容量小于等于预设最小容量时,则表明临时储存组件中储存的数据已经达到最大值,无法继续储存日志文件。
步骤S22,根据当前剩余容量与最小预设容量比对结果的调节读取组件的读取速度。
具体地,根据临时储存组件的当前剩余容量与预设最小容量的比对结果判断临时储存组件是否能够继续读取数据。在剩余容量小于预设最小容量时,则表明临时储存组件已经无足够的剩余容量来继续进行数据的储存,因而此时控制读取组件暂停数据的读取,而等待临时储存组件释放容量。
进行数据采集时,临时储存组件的预设最大容量越大,则表明其能够储存的数据量越大,但由于临时储存组件是使用缓存作为存储介质,而占用过多的缓存会使得终端运行卡顿,甚至会因为内存不足而导致系统崩溃等异常。但是当临时储存组件的预设最大容量过小时,则导致读取与发送的中断次数增加,并且读取记录的写入次数也会增加,从而导致数据采集的整体效率降低,数据采集的速度变慢。
因此,临时储存组件需要设置一个合适的预设最小容量,来保障数据采集的效率最大化以及正常运行。由于临时储存组件的容量是有限的,因此需要根据临时储存组件的剩余容量调整读取与发送的节奏,从而控制读取速度,避免临时储存组件因发送速度小于读取速度而导致数据丢失等异常。所以需要在临时储存组件的当前剩余容量达到预设最小容量时停止读取,在发送组件将临时储存组件中的数据发送完毕后,即临时储存组件偶的容量进行释放后继续进行读取,这样能够保证数据采集的正常进行。
进一步地,步骤S22,根据当前剩余容量与最小预设容量比对结果的调节读取组件的读取速度的步骤包括:
步骤S221,若比对得出临时存储组件的当前剩余容量大于预设最小容量,则控制读取组件继续进行读取目标日志;
具体地,当检测出临时储存组件的当前剩余容量大于预设最小容量,则表明临时储存组件中仍有剩余可用的缓存空间,可以继续储存读取的数据,因此可以继续进行数据的读取。
步骤S222,若比对得出临时存储组件的当前剩余容量小于等于到预设最小容量,则控制读取组件暂停读取目标日志。
具体地,当检测出临时储存组件的当前剩余容量小于等于预设最小容量,则表明临时储存组件中已经无剩余可用的缓存空间,此时无法继续储存读取的数据,因此需要暂停数据的读取,先进行数据的发送。
临时储存组件的当前剩余容量与预设最小容量的比对结果决定了当前是否继续对数据进行读取。当临时储存组件的当前剩余容量小于或等于预设最小容量的时,则无法继续进行数据的读取,因为此时临时储存组件已经不能再将读取数据储存,若是继续读取数据会造成数据丢失。因此当临时储存组件的当前剩余容量小于或等于预设最小容量时,暂停数据的读取,通过发送数据来释放临时储存组件的容量,直至临时储存组件的容量被释放至一定程度(可以设置限度,例如释放一半的空间或者释放全部空间后,继续进行数据读取)。
在临时储存组件当前剩余容量小于或等于预设最小容量时暂停读取数据,可以有效的解决读取速度过快所导致的数据丢失问题,而发送组件也能够准确的记录最后读取位置,使得数据采集能够正常准确的进行。
进一步地,步骤S30控制发送组件发送目标日志的步骤还包括:
步骤S31,将读取的数据通过发送组件发送至预设远端地址。
具体地,发送组件读取了临时储存组件中的数据后,将数据发送至预设的远端地址,完成数据采集。
发送组件会将由临时储存组件中读取的数据发送至远端服务器中,而用户只需要预设远端服务器的地址即可获取从终端中采集的数据,用户可以在远端服务器接收到终端采集的数据,对数据进行使用,通过预设远端地址,用户能够方便的获取到由终端采集的数据。
进一步地,步骤S30,根据目标日志更新读取记录的步骤还包括:
步骤S32,检测目标日志的类型是否为可更新日志;
具体地,根据时间标识(一般为时间标识,可根据实际情况进行设置)检测目标日志文件是否为可更新的日志文件,以决定储存读取记录的方式。
步骤S33,若目标日志的类型不为可更新日志文件,则将读取记录更新为当前日志文件的下一个日志文件的初始位置;
具体地,发送组件在发送完一个日志文件的所有数据后,根据该日志文件的日期标识(一般以日为单位创建日志文件,因此根据时间标识可以判断是否为可更新日志,可以根据实际情况的不同进行调整)判断目标日志的类型是否为可更新日志,若不为可更新日志,表明一般情况下,该日志文件不会再次进行改写,因此在该日志文件读取完毕后,则按照时间的顺序进行一个日志文件的读取,读取记录则记录为下一个日志文件的初始位置。
步骤S34,若目标日志的类型为可更新日志文件,则将读取记录更新为当前日志文件的最后读取位置。
具体地,发送组件在发送完一个日志文件的所有数据后,根据该日志文件的日期标识判断目标日志的类型是否为可更新日志,若为可更新日志,由于让日文件后续可能会有新增内容。以常见的每日一个日志文件为例,中午12点时进行数据采集,若采集完当天的日志文件,由于12点并不是一天的结束时间,因此在12点之后24点之前,该日志文件还有可能会进行更新,所以再次进行数据采集时需要继续对该日志文件进行采集。因此由再次读取的必要,因而本次读取完毕后,记录本次读取的位置,以便再次读取时对数据进行采集。
发送组件将临时储存组件中储存的数据读取并发送后,会保存读取记录,记录最后读取的日志位置,以便数据采集被中断后,再次采集时可以根据上次读取的位置继续进行数据采集。但是根据日志文件的是否会继续更新,读取记录储存的位置也是不相同的。一般而言,日志文件都是以日时间单位进行储存的,即每天会有一个新的日志文件,因此若是读取的日志文件为当日的日志文件,在读取完毕后,读取记录则记录该日志文件的最后读取的位置(读取到哪一行),因为该日志文件可能会新增数据,因此具有再次读取的意义。若是读取的非当日文件,则读取完毕后,保存下一个日期日志文件的初始位置即可(若不是以日为时间单位储存日志文件,则具体可以根据实际情况进行设置的调整)。根据当前日志文件是否还有新增内容的可能性,来决定最后读取的位置,避免了在进行数据采集后,日志文件新增内容被遗漏的情况。
本发明还提供具有一种数据采集方法的移动终端。
本发明基于数据采集方法的移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序被所述处理器执行时实现如上所述的数据采集方法步骤。
其中,在所述处理器上运行的数据采集程序被执行时所实现的方法可参照本发明数据采集方法各个实施例,在此不再赘述。
此外本发明实施例还提出一种计算机可读存储介质。
本发明计算机可读存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如上所述的数据采集方法的步骤。
其中,在所述处理器上运行的数据采集程序被执行时所实现的方法可参照本发明数据采集方法各个实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据采集方法,其特征在于,所述数据采集方法包括以下步骤:
根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志,并将目标日志存入临时储存组件;
根据临时存储组件的剩余容量调整读取组件的读取速度,控制发送组件读取临时存储组件中的目标日志;
控制发送组件发送目标日志,并根据目标日志更新读取记录。
2.如权利要求1所述的数据采集方法,其特征在于,所述根据储存的读取记录对日志文件进行读取的步骤之前包括:
监视源日志文件夹,获取所有符合配置要求的待使用日志文件,并由待使用日期文件构成日志文件夹。
3.如权利要求1所述的数据采集方法,其特征在于,所述根据发送组件储存的读取记录,控制读取组件从日志文件夹读取对应目标日志的步骤包括:
检测储存空间中是否储存有读取记录,根据检测结果判断对日志文件是否为首次进行数据采集。
若检测到储存空间中没有读取记录,则判定为首次读取,由初始位置开始读取;
若检测到储存空间中有读取记录,则判定为非首次读取,由读取位置所记录的最后读取位置开始读取。
4.如权利要求1所述的数据采集方法,其特征在于,所述将目标日志存入临时储存组件的步骤包括:
将目标日志存入临时储存组件所设置的缓存空间中。
5.如权利要求1所述的数据采集方法,其特征在于,所述根据临时存储组件的剩余容量调整读取组件的读取速度的步骤包括:
检测临时储存组件的当前剩余容量,并与最小预设容量进行比对;
根据当前剩余容量与最小预设容量比对结果的调节读取组件的读取速度。
6.如权利要求5所述的数据采集方法,其特征在于,所述根据当前剩余容量与最小预设容量比对结果的调节读取组件的读取速度的步骤包括:
若比对得出临时存储组件的当前剩余容量大于预设最小容量,则控制读取组件继续进行读取目标日志;
若比对得出临时存储组件的已用容量小于等于到预设最小容量,则控制读取组件暂停读取目标日志。
7.如权利要求1所述的数据采集方法,其特征在于,所述控制发送组件发送目标日志的步骤还包括:
将读取的数据通过发送组件发送至预设远端地址。
8.如权利要求1所述的数据采集方法,其特征在于,所述根据目标日志更新读取记录的步骤包括:
检测目标日志的类型是否为可更新日志;
若目标日志的类型不为可更新日志文件,则将读取记录更新为当前日志文件的下一个日志文件的初始位置;
若目标日志的类型为可更新日志文件,则将读取记录更新为当前日志文件的最后读取位置。
9.一种移动终端,其特征在于,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据采集方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如权利要求1至8中任一项所述的数据采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710856202.XA CN107748756A (zh) | 2017-09-20 | 2017-09-20 | 数据采集方法、移动终端及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710856202.XA CN107748756A (zh) | 2017-09-20 | 2017-09-20 | 数据采集方法、移动终端及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107748756A true CN107748756A (zh) | 2018-03-02 |
Family
ID=61255671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710856202.XA Pending CN107748756A (zh) | 2017-09-20 | 2017-09-20 | 数据采集方法、移动终端及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107748756A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108449414A (zh) * | 2018-03-21 | 2018-08-24 | 四川斐讯信息技术有限公司 | 一种基于flume服务器的数据备份容错方法及系统 |
CN109460392A (zh) * | 2018-10-10 | 2019-03-12 | 东软集团股份有限公司 | 日志文件采集方法、装置、可读存储介质及电子设备 |
CN110007858A (zh) * | 2019-03-13 | 2019-07-12 | 新华三技术有限公司成都分公司 | 存储空间分配方法及装置 |
CN110362450A (zh) * | 2019-07-16 | 2019-10-22 | 深圳市网心科技有限公司 | 一种日志数据采集方法、装置及计算机可读存储介质 |
CN111930304A (zh) * | 2020-07-10 | 2020-11-13 | 苏州浪潮智能科技有限公司 | 一种数据采集速度控制方法、设备及存储介质 |
CN112465466A (zh) * | 2020-12-10 | 2021-03-09 | 金蝶软件(中国)有限公司 | 流程任务执行方法、装置、计算机设备和存储介质 |
CN113157475A (zh) * | 2021-03-30 | 2021-07-23 | 北京大米科技有限公司 | 日志处理方法、装置、存储介质及电子设备 |
CN112465466B (zh) * | 2020-12-10 | 2024-05-03 | 金蝶软件(中国)有限公司 | 流程任务执行方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100210294A1 (en) * | 2009-02-19 | 2010-08-19 | Yokogawa Electric Corporation | Logging system for wireless communication and wireless device |
CN103401934A (zh) * | 2013-08-06 | 2013-11-20 | 广州唯品会信息科技有限公司 | 获取日志数据的方法和系统 |
CN104065521A (zh) * | 2014-07-18 | 2014-09-24 | 国家电网公司 | 一种电力网络设备日志和配置文件的采集、分析和发布系统及其方法 |
CN104486107A (zh) * | 2014-12-05 | 2015-04-01 | 曙光信息产业(北京)有限公司 | 一种日志采集装置及方法 |
CN104836686A (zh) * | 2015-05-11 | 2015-08-12 | 北京明略软件系统有限公司 | 一种生成服务器的配置文件的方法及装置 |
CN105631026A (zh) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种安全数据分析系统 |
CN106254466A (zh) * | 2016-08-05 | 2016-12-21 | 河海大学常州校区 | 基于局域网的hdfs分布式文件共享方法 |
-
2017
- 2017-09-20 CN CN201710856202.XA patent/CN107748756A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100210294A1 (en) * | 2009-02-19 | 2010-08-19 | Yokogawa Electric Corporation | Logging system for wireless communication and wireless device |
CN103401934A (zh) * | 2013-08-06 | 2013-11-20 | 广州唯品会信息科技有限公司 | 获取日志数据的方法和系统 |
CN104065521A (zh) * | 2014-07-18 | 2014-09-24 | 国家电网公司 | 一种电力网络设备日志和配置文件的采集、分析和发布系统及其方法 |
CN104486107A (zh) * | 2014-12-05 | 2015-04-01 | 曙光信息产业(北京)有限公司 | 一种日志采集装置及方法 |
CN104836686A (zh) * | 2015-05-11 | 2015-08-12 | 北京明略软件系统有限公司 | 一种生成服务器的配置文件的方法及装置 |
CN105631026A (zh) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种安全数据分析系统 |
CN106254466A (zh) * | 2016-08-05 | 2016-12-21 | 河海大学常州校区 | 基于局域网的hdfs分布式文件共享方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108449414A (zh) * | 2018-03-21 | 2018-08-24 | 四川斐讯信息技术有限公司 | 一种基于flume服务器的数据备份容错方法及系统 |
CN109460392A (zh) * | 2018-10-10 | 2019-03-12 | 东软集团股份有限公司 | 日志文件采集方法、装置、可读存储介质及电子设备 |
CN110007858A (zh) * | 2019-03-13 | 2019-07-12 | 新华三技术有限公司成都分公司 | 存储空间分配方法及装置 |
CN110362450A (zh) * | 2019-07-16 | 2019-10-22 | 深圳市网心科技有限公司 | 一种日志数据采集方法、装置及计算机可读存储介质 |
CN111930304A (zh) * | 2020-07-10 | 2020-11-13 | 苏州浪潮智能科技有限公司 | 一种数据采集速度控制方法、设备及存储介质 |
CN111930304B (zh) * | 2020-07-10 | 2022-08-12 | 苏州浪潮智能科技有限公司 | 一种数据采集速度控制方法、设备及存储介质 |
CN112465466A (zh) * | 2020-12-10 | 2021-03-09 | 金蝶软件(中国)有限公司 | 流程任务执行方法、装置、计算机设备和存储介质 |
CN112465466B (zh) * | 2020-12-10 | 2024-05-03 | 金蝶软件(中国)有限公司 | 流程任务执行方法、装置、计算机设备和存储介质 |
CN113157475A (zh) * | 2021-03-30 | 2021-07-23 | 北京大米科技有限公司 | 日志处理方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748756A (zh) | 数据采集方法、移动终端及可读存储介质 | |
CN107688607A (zh) | 一种数据库访问的方法及移动终端、计算机可读存储介质 | |
CN107436779A (zh) | 一种应用程序管理方法、设备及计算机可读存储介质 | |
CN107463481A (zh) | 数据交互方法、移动终端和存储介质 | |
CN107861688A (zh) | 一种数据删除方法、终端及可读存储介质 | |
CN108762876A (zh) | 一种输入法切换方法、移动终端以及计算机存储介质 | |
CN107340833A (zh) | 终端温度控制方法、终端及计算机可读存储介质 | |
CN107145385A (zh) | 一种多任务界面显示方法、移动终端和计算机存储介质 | |
CN107133302A (zh) | 实现数据一致性的方法、系统、终端及计算机可读存储介质 | |
CN108241466A (zh) | 文件处理方法、装置及计算机可读存储介质 | |
CN107341067A (zh) | 一种按键失效处理方法、设备及计算机可读存储介质 | |
CN107124466A (zh) | 一种防止缓存穿透方法及装置、计算机可读存储介质 | |
CN107247606A (zh) | 应用程序管理方法、装置及计算机可读存储介质 | |
CN107679176A (zh) | 一种提高应用打开速度的方法、终端、服务器、计算机可读存储介质 | |
CN108762631A (zh) | 一种移动终端控制方法、移动终端及计算机可读存储介质 | |
CN107273433A (zh) | 一种文件扫描方法、设备及计算机可读存储介质 | |
CN109299039A (zh) | 一种文件管理方法、设备及计算机可读存储介质 | |
CN108121681A (zh) | 一种热插拔实现方法、终端及存储介质 | |
CN107818022A (zh) | 应用程序接口合并方法、移动终端及计算机可读存储介质 | |
CN108052280A (zh) | 一种缓存数据的删除方法、终端和计算机可读存储介质 | |
CN107613206A (zh) | 一种图像处理方法、移动终端及计算机可读存储介质 | |
CN107659726A (zh) | 一种恢复终端信息的方法、设备及计算机可读存储介质 | |
CN109545120A (zh) | 屏幕光感传感器调节方法、移动终端和计算机可读存储介质 | |
CN109240881A (zh) | 一种应用程序闪退处理方法、设备及计算机可读存储介质 | |
CN108650281A (zh) | 一种数据管理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180302 |