CN117609175A - 一种可配置的工控文件采集解析方法和系统 - Google Patents

一种可配置的工控文件采集解析方法和系统 Download PDF

Info

Publication number
CN117609175A
CN117609175A CN202410097903.XA CN202410097903A CN117609175A CN 117609175 A CN117609175 A CN 117609175A CN 202410097903 A CN202410097903 A CN 202410097903A CN 117609175 A CN117609175 A CN 117609175A
Authority
CN
China
Prior art keywords
original log
data
regular expression
log file
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410097903.XA
Other languages
English (en)
Other versions
CN117609175B (zh
Inventor
张澄宇
李纲
陆裕来
刘书伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qieyun Shanghai Internet Of Things Technology Co ltd
Original Assignee
Qieyun Shanghai Internet Of Things Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qieyun Shanghai Internet Of Things Technology Co ltd filed Critical Qieyun Shanghai Internet Of Things Technology Co ltd
Priority to CN202410097903.XA priority Critical patent/CN117609175B/zh
Publication of CN117609175A publication Critical patent/CN117609175A/zh
Application granted granted Critical
Publication of CN117609175B publication Critical patent/CN117609175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种可配置的工控文件采集解析方法和系统,方法包括:获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;根据所述目标访问地址收集原始日志文件;所述根据所述目标访问地址收集原始日志文件包括:从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;将多个所述原始日志文件按照文件修改时间进行排序;根据所述目标访问地址收集原始日志文件;将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。本申请提高数据采集效率的同时,降低采集时所需的资源消耗。

Description

一种可配置的工控文件采集解析方法和系统
技术领域
本申请涉及数据处理领域,具体涉及一种可配置的工控文件采集解析方法和系统。
背景技术
日志文件可以时刻反映设备的真实状况,因此对日志文件进行分析可以了解设备的运行状况。
然而日志文件数据量较大、种类较多,格式和名称不统一,传统的可配置的工控文件采集解析方法针对每个具体业务、数据源、数据发送目标,需要开发一套数据采集程序。当具体业务场景变化时,往往意味着需要修改现有代码来增加新功能,从而导致了获取日志文件的效率较低,也进一步导致了获取日志文件所需的资源消耗较高。
鉴于此,如何在提高数据采集效率的同时,降低采集时所需的资源消耗成为亟待解决的技术问题。
发明内容
本申请提供一种可配置的工控文件采集解析方法和系统,提高数据采集效率的同时,降低采集时所需的资源消耗。
第一方面,本申请提供一种可配置的工控文件采集解析方法,包括步骤:
获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;
根据所述目标访问地址收集原始日志文件;
所述根据所述目标访问地址收集原始日志文件包括:
从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
将多个所述原始日志文件按照文件修改时间进行排序;
将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。
在一些实施例中,所述获取采集任务对应的目标访问地址包括:
获取用户输入的采集任务;
根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
在一些实施例中,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据包括:
按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
在一些实施例中,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据之后,所述汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据之前包括:
删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
第二方面,本申请还提供一种数据采集系统,包括:
获取模块,用于获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;
收集模块,用于根据所述目标访问地址收集原始日志文件;
所收集模块包括:
第一查找单元,用于从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
排序单元,用于将多个所述原始日志文件按照文件修改时间进行排序;
处理模块,用于将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。
在一些实施例中,所述获取模块包括:
输入单元,用于获取用户输入的采集任务;
获取单元,用于根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
在一些实施例中,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述处理模块包括:
读取单元,用于按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
第二查找单元,用于由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
处理单元,用于汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
在一些实施例中,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述处理模块还包括:
过滤单元,删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
本申请提供的可配置的工控文件采集解析方法和系统,通过获取采集任务对应的目标访问地址,根据所述目标访问地址收集原始日志文件。将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。本申请提高数据采集效率的同时,降低采集时所需的资源消耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的可配置的工控文件采集解析方法的一种流程示意图;
图2是本申请实施例提供的可配置的工控文件采集解析方法的一种场景示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本申请实施例的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请实施例所公开的原理和特征的最广范围相一致。
由于生产设备的数据采集,通常会用标准协议进行对接,通用协议,如http、OPCUA等方式,甚至有些生产设备,使用私有协议,提供对接的说明文档,有些生产设备,因为高昂的协议对接授权导致无法提供标准的数据对接协议等原因,导致供应商生产线中的部分生产设备的工控上位机中,虽然可以提供程序软件运行中产生的日志文件等,这些日志文件中含有一些有价值的数据,但是缺乏一些结构性,例如格式多样性引起非结构化问题,存在txt、xml、ini、log、csv、json等格式,例如名称多样性引起问题,存在按照产品编号、生产时间命名等,这些导致日志文件非结构化的原因,导致每种格式甚至每种名称都需要编写专用程序进行数据匹配采集,日志文件采集效率大大降低,并且大量浪费采集资源。
以下结合说明书附图对本申请的显示面板的启动方法、系统和显示装置进行说明以解决上述问题。
本申请实施例可配置的工控文件采集解析方法的执行主体可以为本申请实施例提供的数据采集系统,例如,本申请实施例提供的可配置的工控文件采集解析方法,可以应用于数据采集系统中。其中,该数据采集系统可以部署在服务器。上述服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的服务器。其中,服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本领域技术人员可以理解,上述应用场景仅仅是与本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,可以理解的,该数据采集系统还可以包括一个或多个其他服务器,具体此处不作限定。
参照图1所示,图1是本申请实施例提供的可配置的工控文件采集解析方法的一种流程示意图。需要说明的是,虽然在图1或其他附图所示的流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于图中所示的顺序执行所示出或描述的步骤。本申请实施例提供的可配置的工控文件采集解析方法应用于服务器,如图1所示,可配置的工控文件采集解析方法包括步骤:
S100、获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式。
具体的,目标访问地址包括但是不限于FTP(File Transfer Protocol)访问方式、共享访问方式、本地访问方式等多种访问方式对应的地址。其中,FTP访问方式实质上就是利用预先注册的账号信息(包括账号ID和登陆密码)登陆FTP服务器,利用文件传输协议登陆FTP服务器并复制或下载下文实施例中的原始日志文件。例如作为数据采集的数据采集终端上搭建FTP服务组件,数据采集终端作为FTP客户端使用账号信息尝试访问FTP服务器,并且在验证账号信息通过或者合法后,从存储有对应于采集任务所需数据的FTP服务器中下载所需的文件。一般,FTP服务器的数据存储地址为FTP服务器的IP地址,例如“192.168.0.1”。
共享访问方式是在局域网内共享访问局域网内多台终端设备中的任意一台终端设备,从同一局域网内运行进行共享数据的终端设备处复制或者下载下文实施例中的原始日志文件。例如某一局域网内允许进行共享访问的多台终端设备设置文件夹共享,这样某一局域网内的任意一台终端设备可以使用账号信息尝试访问同一局域网内其余终端设备中允许共享的文件夹内的数据,并且在验证账号信息通过或者合法后,从同一局域网内其余终端设备中允许共享的文件夹中下载所需的文件。
本地访问方式是访问本地服务器的磁盘或者存储空间,从本地服务器的磁盘或者存储空间处复制或者下载下文实施例中的原始日志文件。一般,本地服务器的数据存储地址为文件地址,例如“C:\数控机床\铣床”。
在一些实施例中,所述获取采集任务对应的目标访问地址包括:
S110、获取用户输入的采集任务;
S120、根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
具体的,采集任务的获取方式可以是语音输入获取,也可以是通过输入框手动输入获取,还可以是接收第三方终端设备发送的采集任务。本申请获取到采集任务后,可以根据采集任务查询预先设置的采集任务与数据存储地址的映射关系,进而可以查询得到对应于采集任务的数据存储地址,并根据数据存储地址的类型得到其对应的目标访问地址。
S200、根据所述目标访问地址收集原始日志文件。
具体的,原始日志文件包括一行或多行日志数据。具体地,原始日志文件可以是采用表格形式呈现的一行或多行日志数据,本申请实施例对日志数据的形式不作具体限定。原始日志文件可以称为Log文件,其可以是用于记录生产设备的操作事件的记录文件。也就是说,原始日志文件可以理解为是生产设备采集的完整的日志文件,其中原始日志文件可以包括多个设备参数数据。数据采集终端可以从生产设备采集该生产设备的原始日志文件。
本申请在获取到采集任务后,可以根据用户需求设定采集任务所对应的目标访问地址,进而根据目标访问地址访问上文实施例中的FTP服务器,或者局域网内非本地服务器以外的终端设备,或者本地服务器的磁盘或者存储空间,从而从目标访问地址对应的磁盘或者存储空间逐级索引并下载对应于采集任务的原始日志文件。
在一些实施例中,所述根据所述目标访问地址收集原始日志文件包括:
S210、从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
S220、将多个所述原始日志文件按照文件修改时间进行排序。
具体的,任何的磁盘或者存储空间均以文件名存储不同层级的同一类型或者具有相同特征的数据,例如,对于加工车间1对应的车床生产加工产品1的数据可以统一存储在文件名为“加工车间1\车床\产品1”对应的文件夹中。如此,采集任务可以设定第一索引字符为“加工车间1\车床\产品1”,第一索引字符可以包括一个关键词或者至少两个关键词的组合,至少一个关键词可以包括但是不限于产线名称、产品名称、产品类型、加工生产设备类型、加工生产设备ID、生产时间。本申请可以通过第一索引字符来从上述实施例中的目标访问地址中下载符合采集任务的至少一个原始日志文件。
具体的,正则表达式,又称正规表示法、常规表示法是计算机科学中的一个概念。正则表达式是对字符串(包括普通字符,例如,a 到 z 之间的字母)和特殊字符,例如“*”、“&”等)操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。本申请设定通过第一正则表达式来从上述实施例中的目标访问地址中筛选并下载得到符合采集任务所需的动态文件名的至少一个原始日志文件。
例如,如图2所示,文件夹里存在很多文件,有的文件名“ABC_20131129.txt”“ABD20131130.txt”,还有的“123xyz.txt”,假如只想要符合“ABC_20131129.txt” 这种类型的原始日志文件,即大写字母+下划线+8个数字的格式,那么,第一正则表达式为 “\S+_\d{8}.txt” ,其中,“\S”表示大写字母,“_”表示下划线,“\d{8}”表示8个数字,如此,按照顺序组合得到对应的第一正则表达式。
本申请可以只通过第一索引字符下载得到符合第一索引字符的多个原始日志文件,也可以只通过第一正则表达式下载得到符合第一索引字符的多个原始日志文件,还可以通过第一索引字符结合第一正则表达式下载得到既符合第一索引字符还符合第一正则表达式的多个原始日志文件。总之,下载得到多个原始日志文件后,将多个原始日志文件按照文件修改时间进行先后排序,例如按照文件修改时间从最新修改到最久未修改的排列顺序将多个原始日志文件进行排序,或者按照文件修改时间从最久未修改到最新修改的排列顺序将多个原始日志文件进行排序。
S300、将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。
具体的,原始日志文件中的一行或多行日志数据可以包括多个设备参数数据。数据采集终端可以从一行或多行日志数据中查找获得多个设备参数数据。例如,数据采集终端可以将每行日志数据中记录的设备参数数据与预设筛选条件进行匹配,从而获得多个设备参数数据。
设备参数数据可以理解为是用户需要关注的生产设备生产产品时的重要参数。设备参数数据可以由工业专家根据业务需求与现场生产需求进行设定,并预先存储在数据平台,数据采集终端可以从数据平台获取该设备参数数据。例如在业务类型为物料加工的场景下,多个设备参数数据可以包括产量、良率、合格率、生产周期以及故障代码等。设备参数数据的数量可以为多个,即多个设备参数数据,本申请实施例对设备参数数据的类型数量不作具体限定。
数据采集终端在获取设备参数数据的同时,还可以获取设备参数数据的构建方式以及构建查询该设备参数数据的多个设备参数数据对应的预设筛选条件,以便于数据采集终端在原始日志文件中根据预设筛选条件查询多个设备参数数据。
在一些实施例中,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据包括:
S310、按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
S320、由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
S340、汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
具体的,按照文件修改时间打开最新的原始日志文件,并按照由上至下的顺序依次读取最新的原始日志文件中的每行内容,从读取的多行内容里提取符合第二索引字符和/或第二正则表达式的数据,然后,再按照文件修改时间打开次新的原始日志文件,再从次新的原始日志文件中提取符合第二索引字符和/或第二正则表达式的数据。如此,汇总从所有原始日志文件中提取的数据得到对应的所述设备参数数据。
例如,按照第一索引字符和/或第一正则表达式查找到三个原始日志文件J1、J2和J3,并且三个原始日志文件J1、J2和J3分别为T1、T2和T3,其中,按照文件修改时间从早到晚的顺序分别为T1-T2-T3,即先打开最新的原始日志文件J3进行数据查找,然后打开次新的原始日志文件J2进行数据查找,最后再打开最早的原始日志文件J1进行数据查找。
取值是指获取最后一条的匹配原始值。一般用于获取当前产品名称、报警号等场景,例如,直接获取原始日志文件的多行日志数据中的数据,抓取出“报警号:25001”的内容。
计数是指获取匹配成功的次数,即统计某个关键词在原始日志文件中出现的次数。一般用于计算产量,良率等。
四则运算包括求和计算、差值计算、乘法计算等,求和计算是指将提取出的数值进行相加,一般用于计算产量、生产时间等,例如,原始日志文件的多行日志数据中出现多个不同时间段的产量,比如每小时的产量,进行累加计算得到当天总产量。差值计算是将指将提取出的数值进行相减,一般用于计算生产周期,例如,例如将生产设备开始生产产品的开始时间点和生产设备加工完该产品物料的结束时间点进行差值计算,获取生产周期。
在一些实施例中,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据之后,所述汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据之前包括:
删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
具体的,在一实施例中,第三正则表达式为与第二正则表达式的内容相似甚至相同,但是语义不同的过滤逻辑,也就是说,使用第二索引字符和/或所述第二正则表达式从原始日志文件中提取的数据可能存在干扰内容,因此,需要设置第三正则表达式,从使用第二索引字符和/或所述第二正则表达式从原始日志文件中提取的数据中,筛选出符合第三正则表达式的干扰数据,如此才能准确查找或筛选出符合采集任务的设备参数数据。
示例性的,获取对应于目标访问地址的文件清单,根据文件清单中的目标访问地址以及第一正则表达式,从多个目标访问地址中匹配文件名称,匹配成功的文件就下载下来得到对应的多个原始日志文件,并且将多个原始日志文件按照文件修改时间进行排序。读取修改时间最新的原始日志文件的文件内容,从上至下遍历最新的原始日志文件中的每行内容,匹配第二正则表达式的内容得到筛选出的数据,并将根据第一正则表达式和第二正则表达式筛选出的数据中查找并剔除第三正则表达式的干扰数据,得到最后的对应于采集任务的设备参数数据。
由此可知,本申请实施例通过构建正则表达式组合(包括第一正则表达式、第二正则表达式和第三正则表达式),并根据正则表达式组合获取多个设备参数数据,进而数据采集终端可以按照正则表达式组合采集设备参数数据,使得采集到的设备参数数据更具有针对性,按需采集设备参数数据,为后续准确获取生产设备的设备参数数据提供了保障。同时减少了所需采集的设备参数数据的数据量,进而提高了设备参数数据的采集效率,降低了采集设备参数数据时所需的资源消耗。
需要说明的是,第一正则表达式、第二正则表达式和第三正则表达式的数量均可以包括至少一个,例如第一正则表达式集合包括至少两个第一正则表达式,依次类推,第二正则表达式集合包括至少两个第二正则表达式,第三正则表达式集合包括至少两个第三正则表达式。
统计每个同类型的正则表达式集合中每个正则表达式的匹配效果评估分数,可信度权重值等于匹配成功率乘以第一系数与匹配度数值乘以第二系数,第一系数和第二系数均为大于0且小于1的数值,且第一系数和第二系数的和值等于1,匹配成功率等于当前正则表达式的格式匹配成功次数除以当前正则表达式对应的总匹配次数,匹配度数值可以使用神经网络算法训练得到匹配度网络模型来评估,即将大量的正则表达式作为输入,匹配度作为输出,训练得到匹配度网络模型,然后将当前正则表达式输入至训练好的匹配度网络模型得到对应的匹配度数值。将同类型的正则表达式集合中每个正则表达式按照可信度权重值从大到小进行排序,将对应于采集任务的目标数据集合中数据与排序后的正则表达式进行匹配,得到设备参数数据,同时将匹配到数据的正则表达式的可信度权重值进行更新。
以上,正则表达式是根据新增数据的情况实时调整提取需求,并实时编写的,即最新正则表达式集合中包括针对变化待提取数据编写的正则表达式,在初始情况下,即正则表达式还未使用时的初始的可信度权重值为设定值,例如设定值为1。
在本申请一实施例中,从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件之后,将多个所述原始日志文件按照文件修改时间进行排序之前还包括:
判断所述原始日志文件是否完整,若完整获取所述原始日志文件的文件修改时间,若不完整重新获取所述原始日志文件。
具体的,原始日志文件的完整性评估可以采用检测关键属性的方式。具体地,数据采集终端可以判断原始日志文件是否包括多个关键属性,其中在数据采集终端检测到原始日志文件包括预设的多个关键属性的情况下,则判定原始日志文件完整,否则判定原始日志文件不完整。需要说明的是,关键属性的数量和内容可以根据不同的业务类型进行针对性的设定,本申请实施例对关键属性不作具体限定。本申请实施例通过对原始日志文件进行完整性评估,从而确保了采集的原始日志文件可以完整的包含生产设备运行时的各种状态信息。
第二方面,本申请还提供一种数据采集系统,包括:
获取模块,用于获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;
收集模块,用于根据所述目标访问地址收集原始日志文件;
所收集模块包括:
第一查找单元,用于从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
排序单元,用于将多个所述原始日志文件按照文件修改时间进行排序;
处理模块,用于将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
在一些实施例中,所述获取模块包括:
输入单元,用于获取用户输入的采集任务;
获取单元,用于根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
在一些实施例中,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述处理模块包括:
读取单元,用于按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
第二查找单元,用于由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
处理单元,用于汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据。
在一些实施例中,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述处理模块还包括:
过滤单元,删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
本申请支持多数据源,即支持结构化(Mysql、PGSQL、MongoDB等)、半结构化(Excel、CSV、XML等)和非结构化(图片)数据采集,满足不同数据采集相亲。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元可参见前面的方法实施例实现应用程序的加工演示,在此不再赘述。
本领域普通技术人员可以理解,上述实施例各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可存储于一计算机可读存储介质中,并由处理器进行加载和执行实现上述方法实施例。其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据采集系统及其相应单元的具体工作过程及可带来的有益效果,可以参考如上实施例中可配置的工控文件采集解析方法的说明,具体在此不再赘述。
以上对本申请实施例所提供的一种可配置的工控文件采集解析方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种可配置的工控文件采集解析方法,其特征在于,包括步骤:
获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;
根据所述目标访问地址收集原始日志文件;
所述根据所述目标访问地址收集原始日志文件包括:
从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
将多个所述原始日志文件按照文件修改时间进行排序;
将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。
2.根据权利要求1所述的可配置的工控文件采集解析方法,其特征在于,所述获取采集任务对应的目标访问地址包括:
获取用户输入的采集任务;
根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
3.根据权利要求1所述的可配置的工控文件采集解析方法,其特征在于,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据包括:
按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
4.根据权利要求3所述的可配置的工控文件采集解析方法,其特征在于,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据之后,所述汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据之前包括:
删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
5.一种数据采集系统,其特征在于,包括:
获取模块,用于获取采集任务对应的目标访问地址;所述采集任务包括用于筛选文件名的第一索引字符和第一正则表达式;
收集模块,用于根据所述目标访问地址收集原始日志文件;
所收集模块包括:
第一查找单元,用于从所述目标访问地址中查找并下载得到符合所述第一索引字符和/或所述第一正则表达式对应的多个所述原始日志文件;
排序单元,用于将多个所述原始日志文件按照文件修改时间进行排序;
处理模块,用于将所述原始日志文件与预设筛选条件进行匹配,按照预设提取模式从所述原始日志文件中提取得到设备参数数据。
6.根据权利要求5所述的数据采集系统,其特征在于,所述获取模块包括:
输入单元,用于获取用户输入的采集任务;
获取单元,用于根据所述采集任务查询对应的数据存储地址得到所述目标访问地址。
7.根据权利要求6所述的数据采集系统,其特征在于,所述预设筛选条件包括用于筛选匹配内容的第二索引字符和第二正则表达式,所述处理模块包括:
读取单元,用于按照所述文件修改时间打开多个所述原始日志文件中的最新的原始日志文件;
第二查找单元,用于由上至下遍历查找所述最新的原始日志文件中的每行内容,根据所述预设提取模式从所述最新的原始日志文件中提取符合所述第二索引字符和/或所述第二正则表达式的数据;
处理单元,用于汇总从所有所述原始日志文件中提取的数据得到对应的所述设备参数数据;
其中,所述预设提取模式包括取值、计数和四则运算中的任意一种或多种。
8.根据权利要求7所述的数据采集系统,其特征在于,所述采集任务还包括用于筛选干扰内容的第三正则表达式,所述处理模块还包括:
过滤单元,删除所述设备参数数据中符合所述第三正则表达式的干扰数据。
CN202410097903.XA 2024-01-24 2024-01-24 一种可配置的工控文件采集解析方法和系统 Active CN117609175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410097903.XA CN117609175B (zh) 2024-01-24 2024-01-24 一种可配置的工控文件采集解析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410097903.XA CN117609175B (zh) 2024-01-24 2024-01-24 一种可配置的工控文件采集解析方法和系统

Publications (2)

Publication Number Publication Date
CN117609175A true CN117609175A (zh) 2024-02-27
CN117609175B CN117609175B (zh) 2024-04-05

Family

ID=89960257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410097903.XA Active CN117609175B (zh) 2024-01-24 2024-01-24 一种可配置的工控文件采集解析方法和系统

Country Status (1)

Country Link
CN (1) CN117609175B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103618692A (zh) * 2013-10-28 2014-03-05 中国航天科工集团第二研究院七〇六所 一种构建日志快速匹配的方法
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
CN110245037A (zh) * 2019-06-18 2019-09-17 中国刑事警察学院 一种基于日志的Hive用户操作行为还原方法
US20220092062A1 (en) * 2015-04-03 2022-03-24 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
US11526504B1 (en) * 2021-04-30 2022-12-13 Splunk Inc. Search-time field extraction in a data intake and query system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103618692A (zh) * 2013-10-28 2014-03-05 中国航天科工集团第二研究院七〇六所 一种构建日志快速匹配的方法
CN103731298A (zh) * 2013-11-15 2014-04-16 中国航天科工集团第二研究院七〇六所 一种大规模分布式网络安全数据采集方法与系统
US20220092062A1 (en) * 2015-04-03 2022-03-24 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
CN110245037A (zh) * 2019-06-18 2019-09-17 中国刑事警察学院 一种基于日志的Hive用户操作行为还原方法
US11526504B1 (en) * 2021-04-30 2022-12-13 Splunk Inc. Search-time field extraction in a data intake and query system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗东锋;李芳;郝汪洋;吴仲城;: "基于Docker的大规模日志采集与分析系统", 计算机系统应用, no. 10, 15 October 2017 (2017-10-15) *

Also Published As

Publication number Publication date
CN117609175B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN112199366B (zh) 数据表处理方法、装置及设备
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
CN111459985B (zh) 标识信息处理方法及装置
US9547682B2 (en) Enterprise data processing
AU2013329525C1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN110990447B (zh) 一种数据探查方法、装置、设备及存储介质
CN111008521B (zh) 生成宽表的方法、装置及计算机存储介质
US8468119B2 (en) Matching data from disparate sources
JP2005122702A5 (zh)
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN109669925B (zh) 非结构化数据的管理方法及装置
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN112231598A (zh) 网页路径导航方法、装置、电子设备及存储介质
CN114169401A (zh) 数据处理、预测模型训练方法和设备
Li et al. Demystifying defi mev activities in flashbots bundle
Zada et al. Performance Evaluation of Simple K‐Mean and Parallel K‐Mean Clustering Algorithms: Big Data Business Process Management Concept
CN117609175B (zh) 一种可配置的工控文件采集解析方法和系统
CN107463578B (zh) 应用下载量统计数据去重方法、装置和终端设备
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
Kapusta et al. User Identification in the Process of Web Usage Data Preprocessing.
CN114331740A (zh) 产业图谱大数据分析及扫描的数字化投资价值管理方法
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
SalahEldeen et al. Reading the correct history? Modeling temporal intention in resource sharing
CN111400556A (zh) 数据查询方法及装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant