CN117391066A - 面向工业数据的解析方法、装置、电子设备及存储介质 - Google Patents

面向工业数据的解析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117391066A
CN117391066A CN202311147148.3A CN202311147148A CN117391066A CN 117391066 A CN117391066 A CN 117391066A CN 202311147148 A CN202311147148 A CN 202311147148A CN 117391066 A CN117391066 A CN 117391066A
Authority
CN
China
Prior art keywords
data
industrial
data block
information
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311147148.3A
Other languages
English (en)
Inventor
牟全臣
王佳毅
周连林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Shushe Technology Co ltd
Original Assignee
Suzhou Shushe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Shushe Technology Co ltd filed Critical Suzhou Shushe Technology Co ltd
Priority to CN202311147148.3A priority Critical patent/CN117391066A/zh
Publication of CN117391066A publication Critical patent/CN117391066A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种面向工业数据的解析方法、装置、电子设备及可读存储介质,本申请属于信息处理技术领域,该方法包括:获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块;对于每个数据块,解析数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行处理,得到目标识别结果。

Description

面向工业数据的解析方法、装置、电子设备及存储介质
技术领域
本申请属于信息处理技术领域,尤其涉及一种面向工业数据的解析方法、装置、电子设备及可读存储介质。
背景技术
目前,可扩展标记语言(eXtensible Markup Language,XML)是一种数据表示方法,广泛应用在网络服务、数据库和文件处理等领域。
在工业软件开发过程中,工业数据涉及设计、制造、运维和管理等各个阶段,且各个阶段的软件模块存在一定的耦合性,各个阶段的工业数据之间交互频繁,在交互过程中往往需要对工业数据进行解析。
目前,在对工业数据的解析过程中,由于各个阶段的工业数据的来源不是完全一致的,对数据的命名也是各异的,因此各个阶段的工业数据之间相对独立,导致对工业数据的解析效率低。
发明内容
本申请实施例提供一种面向工业数据的解析方法、装置、设备及可读存储介质,能够解决目前对工业数据的解析效率低的问题。
第一方面,本申请实施例提供一种面向工业数据的解析方法,该方法包括:
获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;
基于元素标签符,对工业数据进行划分,得到多个数据块;
对于每个数据块,解析数据块得到至少一个第一识别结果;
根据命名空间信息,对第一识别信息进行处理,得到目标识别结果。
第二方面,本申请实施例提供一种面向工业数据的解析装置,该装置包括:
获取模块,用于获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;
划分模块,用于基于元素标签符,对工业数据进行划分,得到多个数据块;
解析模块,用于对于每个数据块,解析数据块得到至少一个第一识别结果;
处理模块,用于根据命名空间信息,对第一识别信息进行处理,得到目标识别结果。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时,实现如第一方面或者第一方面的任一可能实现方式中的方法。
第四方面,本申请实施例提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
本申请实施例中,通过获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块,由于元素标签符中的工业标签能够用于表征某一块数据流的类型,元素标签符中的元素分界符能够标识数据流的分界点,所以基于元素标签符能够快速准确地划分得到多个数据块;然后对元素标签符划分得到的每个数据块进行解析,数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行进一步处理,得到目标识别结果,由此,能够提升目标识别结果的准确率,提升对工业数据的数据解析效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种面向工业数据的解析方法的流程图;
图2是本申请实施例提供的一种数据块的示意图;
图3是本申请实施例提供的一种面向工业数据的解析装置结构示意图;
图4是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供的面向工业数据的解析方法至少可以应用于下述应用场景中,下面进行说明。
XML广泛应用在网络服务、数据库和文件处理等领域。在需要高度的互操作性、灵活性和可扩展性以及表现出高度异构性的情况下,XML已经成为数据传输的事实标准。
而在工业软件开发过程中,由于工业数据的复杂性,涉及设计、制造、运维和管理等阶段。且各阶段的软件模块存在一定的耦合性,往往通过数据文件进行交互。
但又由于数据文件相对独立性和数据源头信息的缺失,比如各个阶段的数据对于同一对象的命名各不相同,数据难以有效传递,且当所需要处理的XML文件大小增加时,大多数Web服务的实现都不能够很好的扩展,其性能的限制将在多核处理器上显著增加。
基于上述应用场景,下面对本申请实施例提供的面向工业数据的解析方法进行详细说明。
图1为本申请实施例提供的一种面向工业数据的解析方法的流程图。
如图1所示,该面向工业数据的解析方法可以包括步骤110-步骤140,该方法应用于面向工业数据的解析装置,具体如下所示:
步骤110,获取工业数据、元素标签符和命名空间信息,所述元素标签符包括工业标签和元素分界符;
步骤120,基于所述元素标签符,对所述工业数据进行划分,得到多个数据块;
步骤130,对于每个所述数据块,解析所述数据块得到至少一个第一识别结果;
步骤140,根据所述命名空间信息,对所述第一识别信息进行处理,得到目标识别结果。
本申请实施例中,通过获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块,由于元素标签符中的工业标签能够用于表征某一块数据流的类型,元素标签符中的元素分界符能够标识数据流的分界点,所以基于元素标签符能够快速准确地划分得到多个数据块;然后对元素标签符划分得到的每个数据块进行解析,数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行进一步处理,得到目标识别结果,由此,能够提升目标识别结果的准确率,提升数据解析效率。
下面,对步骤110-步骤140的内容分别进行描述:
涉及步骤110。
获取工业数据、元素标签符和命名空间信息,所述元素标签符包括工业标签和元素分界符;
在一种可能的实施例中,步骤110之前,还可以包括以下步骤:
定义工业标签,所述工业标签包括:产品标签、方法标签、时间标签、人员标签和地点标签。
在元素标签符定义阶段根据工业系统的特点统一标签为:产品标签、方法标签、时间标签、人员标签和地点标签。
“system”、“product”、“method”、“person”、“place”、“time”。“system”为根节点;
“product”为子节点;“product”为产品标签
“method”、“person”、“place”、“time”为子子节点。
“method”为方法标签、“time”为时间标签、“person”为人员标签;“place”为地点标签。
涉及步骤120。
基于所述元素标签符,对所述工业数据进行划分,得到多个数据块;
基于所述元素标签符,对所述工业数据进行划分,将较大的连续的XML文件按一定的规则划分为多个独立的XML数据块,进而把上述划分的数据块通过多线程并行处理。
其中,元素边界开始符由包含“<”特殊字符的“</”、“<?”、“<!”或“<[CDATA[”字符串而确定。在其确定过程中,由于在注释或字符数据块中存在“<”字符,则会对开始符的确定产生影响,则通过一种预处理手段对所选“<”字符进行确定,找到并区分元素边界开始符与实体符,实体符即为注释或字符数据块中的“<”字符。
其中,通常对于任意的XML文档,可以根据给定的分块数对其进行划分,这种划分仅依靠XML文档位置进行划分,并不是依靠业务逻辑进行划分,难以对复杂的工业系统数据流进行有效整理。
其中,以弯管机系统为例,XML标签表示为:
<system>
<name>弯管机系统</name>
<product>
<name>弯管机</name>
</product>
<method>
<name>干涉分析</name>
<JointLengthL1>0.39</JointLengthL1>
<JointLengthL2>0.42</JointLengthL2>
···
</method>
<person>
<name>王某某</name>
<age>30</age>
···
</person>
<time>
<name>2023-3-1</name>
</time>
<place>
<name>一车间</name>
</place>
</system>
在对标签进行统一定义后,以“product”、“method”、“person”、“place”、“time”为划分边界进行数据分块,首先找到开始符的“<”字符,但“<”字符分为两种情况,一种是作为开始元素或结束元素的开始字符,另一种是作为注释或字符数据块中的实体字符。因此需要识别出注释或字符数据块中的实体字符。
划分得到的数据块包括:
第一数据块:
<system>
<name>弯管机系统</name>
<product>
第二数据块:
<method>
<name>干涉分析</name>
<JointLengthL1>0.39</JointLengthL1>
<JointLengthL2>0.42</JointLengthL2>
···
</method>
第三数据块:
<person>
<name>王某某</name>
<age>30</age>
···
</person>
第四数据块:
<time>
<name>2023-3-1</name>
</time>
第五数据块:
<place>
<name>一车间</name>
</place>
</system>
其中,元素标签符包括元素开始符和元素结束符,所述数据块包括元素开始符、内容项和元素结束符。
示例性地,涉及第四数据块:
<time>
<name>2023-3-1</name>
</time>
数据块包括元素开始符、内容项和元素结束符;其中,元素开始符为“<time>”内容项“<name>2023-3-1</name>;”和元素结束符“</time>”
XML数据流的基本结构,即元素开始符、内容项和元素结束符。在元素开始符和元素结束符中,它确定元素名和每个属性(包括命名空间声明),并确定它们的开始和结束位置。
涉及步骤130。
对于每个所述数据块,解析所述数据块得到至少一个第一识别结果;
按上述所划分的数据块读入XML流,并以数据并行方式初步解析来识别输入XML流的结构。
因为块的处理独立于它们在XML流中的顺序,所以此时对于数据块的解释是不明确的,将导致每个块有至少一个第一识别结果。
在一种可能的实施例中,基于多线程并行执行对于每个所述数据块,解析所述数据块得到至少一个第一识别结果的步骤。
在执行开始时,针对每个核启动线程,在任何时间段,每个线程都将在某个阶段处理一个数据块。
同时,数据块也可以由不同的线程在不同的阶段处理,当数据块准备好用于下一阶段时,它将由下一个可用线程处理,以此提高解析效率。
在一种可能的实施例中,步骤130中,具体可以包括以下步骤:
对每个所述数据块,基于确定有限自动机DFA技术解析所述数据块,得到至少一个第一识别结果。
当接收到XML数据流时,是独立和并行地解析多个数据块的,因此该阶段是数据并行性的一个示例。
XML解析本质上是顺序的,因此,在XML流中的某个任意点开始解析的初始解析器将不知道从哪个状态开始,为解决这个问题,使用确定有限自动机(Deterministic FiniteAutomaton,DFA)技术,能根据事先给定的转移函数转移到下一个状态。
涉及步骤140。
根据所述命名空间信息,对所述第一识别信息进行处理,得到目标识别结果。
在一种可能的实施例中,步骤140中,具体可以包括以下步骤:
根据第一数据块的标记识别结果,从每个数据块的至少一个第一识别信息中选择第二识别结果;所述多个数据块包括所述第一数据块;
根据所述命名空间信息,对第二识别结果进行校正处理,得到所述目标识别结果。
每个数据块都附有多个结构部分序列,如元素起始符。
对于文档开头的首个数据块,即第一数据块,由于第一数据块的标记识别结果只有一种可能的解析结果,然后,将该单个标记识别结果的结束状态用作第二数据块的开始状态以选择正确的解释。再使用第二数据块中的单个正确解释来选择第三数据块中的正确解释,以此类推。这种链接在本阶段将作为连续过程发生。
其中,命名空间信息可以为XML的文件名称信息,根据命名空间信息,能够对第二识别结果进行校正处理,得到最终的目标识别结果,下面对该校正处理过程具体说明:
在一种可能的实施例中,数据块包括元素开始符、内容项和元素结束符,上述涉及到的根据所述命名空间信息,对第二识别结果进行校正处理,得到所述目标识别结果的步骤中,具体可以包括以下步骤:
确定所述元素标签符和所述内容项在所述数据块中的位置信息;
根据所述位置信息确定所述数据块中的回调信息;
基于回调信息,对所述第二识别结果进行校正处理,得到所述目标识别结果。
本阶段主要对命名空间进行处理,包括识别命名空间前缀,并执行块内前缀查找。
上一阶段的输出是由与每个数据块相关联的开始标签、内容项和结束标签组成的结构部分的序列。每一个都有其相关的语法单元,比如元素名和属性,由它们的开始和结束字符位置限定,即确定元素标签符和所述内容项在所述数据块中的位置信息。
利用该位置信息,本阶段执行附加的命名空间处理,在这样的处理之后,XML SAX回调所需的数据大部分都存在,因此该阶段将语法单元及其在XML流上的位置信息转换为具有XML SAX回调所需的表示形式的缓冲数据,本阶段输出由最终将在回调中使用的结构组成,即根据所述位置信息确定所述数据块中的回调信息。
基于回调信息,对所述第二识别结果进行校正处理,得到所述目标识别结果,具体可以解析其他剩余的数据块间名称空间前缀引用,并调用SAX事件的实际回调。
由于这种块间名称空间引用根据定义是顺序相关的,并且假设SAX回调应该严格按顺序调用,因此这个阶段是顺序的。此阶段可存在不同的线程,但在任何时间段内,能够运行的线程只有一个。
为了正确处理名称空间查找和发出SAX名称空间回调,当遇到一个开始标签时,将新元素推入堆栈,为元素的所有命名空间发出SAX StartPrefixMapping回调;当遇到一个结束标签时,弹出元素堆栈,为元素的所有命名空间发出SAX EndPrefixMapping回调。
并通过从上到下遍历与该元素栈的每个元素相对应的命名空间声明来查找未解析的数据块间命名空间前缀,一旦回调所需的前缀被解析为其命名空间统一资源标识符(Uniform Resource Identifier,URI)就可以相应地调用回调。URI是一个用于标识某一互联网资源名称的字符串。
本申请实施例中,通过获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块,由于元素标签符中的工业标签能够用于表征某一块数据流的类型,元素标签符中的元素分界符能够标识数据流的分界点,所以基于元素标签符能够快速准确地划分得到多个数据块;然后对元素标签符划分得到的每个数据块进行解析,数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行进一步处理,得到目标识别结果,由此,能够提升目标识别结果的准确率,提升数据解析效率。
下面结合图2对面向工业数据的解析方法的四个阶段进行说明:
第一阶段按上述所划分的数据块读入XML流,并以数据并行方式初步解析来识别输入XML流的结构,因为块的处理独立于它们在XML流中的顺序,所以此时对于数据块的解释是不明确的,将导致每个块有多个识别结果。
第一阶段首先确定XML数据流的基本结构,即确定元素开始符、元素内容和元素结束符。在元素开始符合元素结束符中,它确定元素名和每个属性(包括命名空间声明),并确定它们的开始和结束位置。
当接收到XML数据流时,根据模块一被划分成数据块,并行性是通过独立和并行地解析多个数据块来获得的,因此该阶段是数据并行性的一个示例。XML解析本质上是顺序的,因此,在XML流中的某个任意点开始解析的初始解析器将不知道从哪个状态开始,此处为解决这个问题,使用元DFA技术,能根据事先给定的转移函数转移到下一个状态。
第二阶段中由单个线程顺序地扫描上述数据块,以解决识别过程产生的模糊性。
由于每个数据块都附有多个结构部分序列,如元素起始符。第二阶段的目的是将这些不明确的结果分解为一个单一的、明确的序列。对于文档开头的首个数据块,由于不会产生歧义,因此只有一种可能的解析结果,然后,将该单个明确解析的结束状态用作第二数据块的开始状态以选择正确的解释。再使用第二数据块中的单个正确解释来选择第三数据块中的正确解释,以此类推。这种链接在本阶段将作为连续过程发生。
第三阶段从第二阶段获取明确的数据流,并再次以数据并行、无序队列的方式处理数据块。其目的是执行命名空间处理,包括识别命名空间前缀和执行块内命名空间查找。
第三阶段主要对命名空间进行处理,包括识别命名空间前缀,并执行块内前缀查找。第二阶段的输出是由与每个数据块相关联的开始标签、内容项和结束标签组成的结构部分的序列。每一个都有其相关的语法单元,比如元素名和属性,由它们的开始和结束字符位置限定。利用该位置信息,本阶段执行附加的命名空间处理,在这样的处理之后,XML SAX回调所需的数据大部分都存在,因此该阶段将语法单元及其在XML流上的位置信息转换为具有XML SAX回调所需的表示形式的缓冲数据,本阶段输出由最终将在回调中使用的结构组成。
第四阶段单个线程再次地处理数据块以执行其他剩余的块间命名空间查找,然后实际调用回调。
第四阶段解析其他剩余的数据块间名称空间前缀引用,并调用SAX事件的实际回调。由于这种块间名称空间引用根据定义是顺序相关的,并且假设SAX回调应该严格按顺序调用,因此这个阶段是顺序的。此阶段可存在不同的线程,但在任何时间将不会超过一个线程。
其中,第一阶段和第三阶段的数据块是并行处理的,因此在上述两阶段均可以在多核处理器中独立地处理输入流的不同数据块。
第二阶段和第四阶段是顺序处理,这意味着在任何一个时间内不能向它们中的任何一个分配多于一个核。如上所述,顺序和并行阶段的混合并行的这种组合提供了更大的调度灵活性。
本申请实施例中,通过获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块,由于元素标签符中的工业标签能够用于表征某一块数据流的类型,元素标签符中的元素分界符能够标识数据流的分界点,所以基于元素标签符能够快速准确地划分得到多个数据块;然后对元素标签符划分得到的每个数据块进行解析,数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行进一步处理,得到目标识别结果,由此,能够提升目标识别结果的准确率,提升数据解析效率。
基于上述图1所示的面向工业数据的解析方法,本申请实施例还提供一种面向工业数据的解析装置,如图3所示,该装置300可以包括:
获取模块310,用于获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;
划分模块320,用于基于元素标签符,对工业数据进行划分,得到多个数据块;
解析模块330,用于对于每个数据块,解析数据块得到至少一个第一识别结果;
处理模块340,用于根据命名空间信息,对第一识别信息进行处理,得到目标识别结果。
在一种可能的实现方式中,该装置300,还可以包括:
定义模块,用于定义工业标签,工业标签包括:产品标签、方法标签、时间标签、人员标签和地点标签。
在一种可能的实现方式中,元素标签符包括元素开始符和元素结束符,数据块包括元素开始符、内容项和元素结束符。
在一种可能的实现方式中,解析模块330,具体用于:
对每个数据块,基于确定有限自动机DFA技术解析数据块,得到至少一个第一识别结果。
在一种可能的实现方式中,处理模块340,具体用于:
根据第一数据块的标记识别结果,从每个数据块的至少一个第一识别信息中选择第二识别结果;多个数据块包括第一数据块;
根据命名空间信息,对第二识别结果进行校正处理,得到目标识别结果。
在一种可能的实现方式中,数据块包括元素开始符、内容项和元素结束符,处理模块340,具体用于:
确定元素标签符和内容项在数据块中的位置信息;
根据位置信息确定数据块中的回调信息;
基于回调信息,对第二识别结果进行校正处理,得到目标识别结果。
在一种可能的实现方式中,基于多线程并行执行对于每个数据块,解析数据块得到至少一个第一识别结果的步骤。
本申请实施例中,通过获取工业数据、元素标签符和命名空间信息,元素标签符包括工业标签和元素分界符;基于元素标签符,对工业数据进行划分,得到多个数据块,由于元素标签符中的工业标签能够用于表征某一块数据流的类型,元素标签符中的元素分界符能够标识数据流的分界点,所以基于元素标签符能够快速准确地划分得到多个数据块;然后对元素标签符划分得到的每个数据块进行解析,数据块得到至少一个第一识别结果;根据命名空间信息,对第一识别信息进行进一步处理,得到目标识别结果,由此,能够提升目标识别结果的准确率,提升数据解析效率。
图4示出了本申请实施例提供的一种电子设备的硬件结构示意图。
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现图所示实施例中的任意一种面向工业数据的解析方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的面向工业数据的解析方法,从而实现结合图1至图2描述的面向工业数据的解析方法。
另外,结合上述实施例中的面向工业数据的解析方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现图1至图2中的面向工业数据的解析方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种面向工业数据的解析方法,其特征在于,所述方法包括:
获取工业数据、元素标签符和命名空间信息,所述元素标签符包括工业标签和元素分界符;
基于所述元素标签符,对所述工业数据进行划分,得到多个数据块;
对于每个所述数据块,解析所述数据块得到至少一个第一识别结果;
根据所述命名空间信息,对所述第一识别信息进行处理,得到目标识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取工业数据、元素标签符和命名空间信息之前,所述方法还包括:
定义工业标签,所述工业标签包括:产品标签、方法标签、时间标签、人员标签和地点标签。
3.根据权利要求1所述的方法,其特征在于,所述元素标签符包括元素开始符和元素结束符,所述数据块包括元素开始符、内容项和元素结束符。
4.根据权利要求1所述的方法,其特征在于,所述对于每个所述数据块,解析所述数据块得到至少一个第一识别结果,包括:
对每个所述数据块,基于确定有限自动机DFA技术解析所述数据块,得到至少一个第一识别结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述命名空间信息,对所述第一识别信息进行处理,得到目标识别结果,包括:
根据第一数据块的标记识别结果,从每个数据块的至少一个第一识别信息中选择第二识别结果;所述多个数据块包括所述第一数据块;
根据所述命名空间信息,对第二识别结果进行校正处理,得到所述目标识别结果。
6.根据权利要求5所述的方法,其特征在于,所述数据块包括元素开始符、内容项和元素结束符,所述根据所述命名空间信息,对第二识别结果进行校正处理,得到所述目标识别结果,包括:
确定所述元素标签符和所述内容项在所述数据块中的位置信息;
根据所述位置信息确定所述数据块中的回调信息;
基于回调信息,对所述第二识别结果进行校正处理,得到所述目标识别结果。
7.根据权利要求1所述的方法,其特征在于,基于多线程并行执行所述对于每个所述数据块,解析所述数据块得到至少一个第一识别结果的步骤。
8.一种面向工业数据的解析装置,其特征在于,所述装置包括:
获取模块,用于获取工业数据、元素标签符和命名空间信息,所述元素标签符包括工业标签和元素分界符;
划分模块,用于基于所述元素标签符,对所述工业数据进行划分,得到多个数据块;
解析模块,用于对于每个所述数据块,解析所述数据块得到至少一个第一识别结果;
处理模块,用于根据所述命名空间信息,对所述第一识别信息进行处理,得到目标识别结果。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的面向工业数据的解析方法。
10.一种可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的面向工业数据的解析方法。
CN202311147148.3A 2023-09-06 2023-09-06 面向工业数据的解析方法、装置、电子设备及存储介质 Pending CN117391066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311147148.3A CN117391066A (zh) 2023-09-06 2023-09-06 面向工业数据的解析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311147148.3A CN117391066A (zh) 2023-09-06 2023-09-06 面向工业数据的解析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117391066A true CN117391066A (zh) 2024-01-12

Family

ID=89465617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311147148.3A Pending CN117391066A (zh) 2023-09-06 2023-09-06 面向工业数据的解析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117391066A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030172348A1 (en) * 2002-03-08 2003-09-11 Chris Fry Streaming parser API
US6763499B1 (en) * 1999-07-26 2004-07-13 Microsoft Corporation Methods and apparatus for parsing extensible markup language (XML) data streams
US20070150809A1 (en) * 2005-12-28 2007-06-28 Fujitsu Limited Division program, combination program and information processing method
US20090089658A1 (en) * 2007-09-27 2009-04-02 The Research Foundation, State University Of New York Parallel approach to xml parsing
US20110153604A1 (en) * 2009-12-17 2011-06-23 Zhiqiang Yu Event-level parallel methods and apparatus for xml parsing
CN103020176A (zh) * 2012-11-28 2013-04-03 方跃坚 Xml解析中数据块划分方法和xml解析方法
CN103902272A (zh) * 2012-12-30 2014-07-02 青岛海尔软件有限公司 基于android平台SAX解析XML错误问题的方法
CN105868257A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 Xml数据解析方法、生成方法以及处理系统
CN113033165A (zh) * 2019-12-24 2021-06-25 腾讯科技(深圳)有限公司 电子表格文件解析方法、装置和计算机可读存储介质
CN116644213A (zh) * 2023-06-07 2023-08-25 深圳复临科技有限公司 Xml文件读取方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763499B1 (en) * 1999-07-26 2004-07-13 Microsoft Corporation Methods and apparatus for parsing extensible markup language (XML) data streams
US20030172348A1 (en) * 2002-03-08 2003-09-11 Chris Fry Streaming parser API
US20070150809A1 (en) * 2005-12-28 2007-06-28 Fujitsu Limited Division program, combination program and information processing method
US20090089658A1 (en) * 2007-09-27 2009-04-02 The Research Foundation, State University Of New York Parallel approach to xml parsing
US20110153604A1 (en) * 2009-12-17 2011-06-23 Zhiqiang Yu Event-level parallel methods and apparatus for xml parsing
CN103020176A (zh) * 2012-11-28 2013-04-03 方跃坚 Xml解析中数据块划分方法和xml解析方法
CN103902272A (zh) * 2012-12-30 2014-07-02 青岛海尔软件有限公司 基于android平台SAX解析XML错误问题的方法
CN105868257A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 Xml数据解析方法、生成方法以及处理系统
CN113033165A (zh) * 2019-12-24 2021-06-25 腾讯科技(深圳)有限公司 电子表格文件解析方法、装置和计算机可读存储介质
CN116644213A (zh) * 2023-06-07 2023-08-25 深圳复临科技有限公司 Xml文件读取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112118232B (zh) 报文协议解析方法及装置
US20180054403A1 (en) Opaque Message Parsing
US8838642B2 (en) Generating and navigating binary XML data
EP1504369A1 (en) System and method for processing of xml documents represented as an event stream
WO2015009542A1 (en) Semantics-oriented analysis of log message content
CN101329665A (zh) 解析标记语言文档的方法和解析器
CN113051285B (zh) Sql语句的转换方法、系统、设备及存储介质
CN108563629B (zh) 一种日志解析规则自动生成方法和装置
CN108537183B (zh) 公式自动识别方法、装置、电子设备及存储介质
US20060235868A1 (en) Methods and apparatus for representing markup language data
WO2012041672A1 (en) Finding partition boundaries for parallel processing of markup language documents
US10467001B2 (en) Enhanced compression, encoding, and naming for resource strings
CN112181924A (zh) 文件转换方法、装置、设备及介质
US8656371B2 (en) System and method of report representation
CN117391066A (zh) 面向工业数据的解析方法、装置、电子设备及存储介质
US8229891B2 (en) Method, apparatus and computer program for model-driven message parsing
CN111061927B (zh) 数据处理方法、装置及电子设备
CN116489251A (zh) 通用码流解析方法、装置、计算机可读介质及终端设备
CN110378457B (zh) 一种码标的生成方法及装置
CN117668090B (zh) 数据交换方法、装置、电子设备和计算机可读存储介质
CN114153867A (zh) 数据分组方法、装置、电子设备和存储介质
CN117724702A (zh) 组件配置生成方法、装置、计算设备及计算机存储介质
CN117668090A (zh) 数据交换方法、装置、电子设备和计算机可读存储介质
CN117891486A (zh) 页面渲染方法、装置、设备及存储介质
CN117891500A (zh) 接口文档的生成方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination