CN112287663B - 一种文本解析方法、设备、终端及存储介质 - Google Patents

一种文本解析方法、设备、终端及存储介质 Download PDF

Info

Publication number
CN112287663B
CN112287663B CN202011342383.2A CN202011342383A CN112287663B CN 112287663 B CN112287663 B CN 112287663B CN 202011342383 A CN202011342383 A CN 202011342383A CN 112287663 B CN112287663 B CN 112287663B
Authority
CN
China
Prior art keywords
model
analyzed
rule
node
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011342383.2A
Other languages
English (en)
Other versions
CN112287663A (zh
Inventor
叶强
张瑞格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Original Assignee
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pingan Zhihui Enterprise Information Management Co ltd filed Critical Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority to CN202011342383.2A priority Critical patent/CN112287663B/zh
Publication of CN112287663A publication Critical patent/CN112287663A/zh
Application granted granted Critical
Publication of CN112287663B publication Critical patent/CN112287663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种文本解析方法、设备、终端及存储介质,该方法包括:获取待解析的文本数据,并对待解析的文本数据进行预处理,确定得到待解析的文本数据对应的待解析模型;确定与待解析模型对应的模型规则,并根据模型规则确定待解析模型中各层级的节点;根据待解析模型的模型规则对待解析模型中各层级中包括的各节点进行编译处理,得到待解析模型中各节点与模型规则的映射关系;根据待解析模型中各节点与模型规则的映射关系对待解析的文本数据进行解析,得到结果数据。这种方式提高了文本数据的解析性能,有助于处理大规模的文本数据。本发明涉及区块链技术,上述数据可存储于区块链中。

Description

一种文本解析方法、设备、终端及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种文本解析方法、设备、终端及存储介质。
背景技术
在现有的语义解析模型中,当模型太大,模型中的节点过多时,节点间的引用层级比较深(如10层引用),当文本命中这些引用层级深的节点时,递归的处理方式耗时成指数级增长,造成了很大的性能问题,严重影响了客户的体验,客户满意度也受到了影响。因此,如何更有效地进行文本解析非常重要。
发明内容
本发明实施例提供了一种文本解析方法、设备、终端及存储介质,可以提高文本解析的性能,有助于处理大规模的文本数据。
第一方面,本发明实施例提供了一种文本解析方法,所述方法包括:
获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型,包括:
对所述待解析的文本数据进行拆分,并根据拆分结果判断所述文本数据中是否与预设的关键词集合中的关键词匹配;
如果判断结果为所述文本数据中存在与预设的关键词集合中相匹配的文本关键词,则根据预设的关键词与规则的对应关系确定与所述相匹配的文本关键词对应的模型规则;
根据预设的规则与模型的对应关系确定与所述模型规则对应的待解析模型。
进一步地,所述根据所述模型规则确定所述待解析模型中各层级的节点,包括:
根据所述模型规则确定各节点之间的节点引用关系,并根据所述节点引用关系确定节点树;
根据所述节点树确定与所述待解析模型的模型规则对应的各层级以及各层级中包括的节点。
进一步地,所述根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系,包括:
获取所述模型规则中包括的规则关键词,并根据所述模型规则中不同的规则关键词构建对应的规则结构;
根据所述规则结构确定各节点中的编译规则以及各节点中的编译规则之间的对应关系;
根据所述各节点中的编译规则之间的对应关系,对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
进一步地,所述根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据,包括:
根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;
根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述根据所述待解析模型中各节点与规则的映射关系,对所述待解析的文本数据进行解析之前,还包括:
根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;
确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则。
进一步地,所述根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据,包括:
根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;
对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;
按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;
确定所述第一解析结果和所述第二解析结果为所述结果数据。
第二方面,本发明实施例提供了一种文本解析设备,所述设备包括:
获取单元,用于获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定单元,用于确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
编译单元,用于根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
解析单元,用于根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
第三方面,本发明实施例提供了一种终端,所述终端包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述程序指令,当所述程序指令被执行时,用于执行以下操作:
获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例,可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。通过这种方式,可以提高文本解析的性能,有助于处理大规模的文本数据。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本解析方法的示意流程图;
图2a是本发明实施例提供的一种文本数据解析的结构示意图;
图2b是本发明实施例提供一种文本数据分割方式的结构示意图;
图3是本发明实施例提供的一种文本解析设备的示意框图;
图4是本发明实施例提供的一种终端的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本解析方法可以应用于一种文本解析设备,在某些实施例中,所述文本解析设备设置于终端中。在某些实施例中,所述终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
本发明实施例可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
本发明实施例提高了语义解析的准确率效率,有助于处理大规模的文本数据,对于将复杂模型应用到生产的实时处理和准实时处理场景,提供了保证,尤其是复杂模型规则场景,可以实现数据批次处理,提供了文本解析过程中的异步吞吐能力,有助于适用不同的业务场景。
下面结合附图1对本发明实施例提供的文本解析方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种文本解析方法的示意流程图,如图1所示,该方法可以由文本解析设备执行,所述文本解析设备设置于终端中,具体解释如前所述,此处不再赘述。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型。
本发明实施例中,文本解析设备可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型。
在一个实施例中,文本解析设备在对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型时,可以对所述待解析的文本数据进行拆分,并根据拆分结果判断所述文本数据中是否与预设的关键词集合中的关键词匹配;如果判断结果为所述文本数据中存在与预设的关键词集合中相匹配的文本关键词,则根据预设的关键词与规则的对应关系确定与所述相匹配的文本关键词对应的模型规则;根据预设的规则与模型的对应关系确定与所述模型规则对应的待解析模型。
S102:确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点。
本发明实施例中,文本解析设备可以确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点。
在一个实施例中,文本解析设备在根据所述模型规则确定所述待解析模型中各层级的节点时,可以根据所述模型规则确定各节点之间的节点引用关系,并根据所述节点引用关系确定节点树,并根据所述节点树确定与所述待解析模型的模型规则对应的各层级以及各层级中包括的节点。
在一个实施例中,所述待解析模型是由不同的节点构成,节点之间按照分类编写且存在着节点引用关系,根据所述节点引用关系确定节点树。其中,所述待解析模型的节点中包括一个或多个模型规则,可以通过模型规则引用不同节点,所述模型规则是所述待解析模型中文本解析的最小单元。
本发明实施例通过对待解析的文本数据进行分析,以确定所述待解析的文本数据对应的待解析模型中各层级的节点,从而可以大大减少运算量。
S103:根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
本发明实施例中,文本解析设备可以根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
在一个实施例中,文本解析设备在根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系时,可以获取所述模型规则中包括的规则关键词,并根据所述模型规则中不同的规则关键词构建对应的规则结构;根据所述规则结构确定各节点中的编译规则以及各节点中的编译规则之间的对应关系;根据所述各节点中的编译规则之间的对应关系,对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
S104:根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
本发明实施例中,文本解析设备可以根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
在一个实施例中,文本解析设备在根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据时,可以根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;并根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据。在某些实施例中,所述正在表达式包括但不限于正则、词距、布尔等语法。
在一个实施例中,文本解析设备在根据所述待解析模型中各节点与规则的映射关系,对所述待解析的文本数据进行解析之前,可以根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;并确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则。
在一个实施例中,文本解析设备在根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据时,可以根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;以及确定所述第一解析结果和所述第二解析结果为所述结果数据。
在一个实施例中,在对所述引用节点对应的文本数据进行解析时,可以获取引用层级,其中,所述引用层级包括但不限于一级引用层级、二级引用层级、三级引用层级等,并按照引用层级的深度,优先解析一级引用层级的引用节点对应的文本数据,然后解析二级引用层级的引用节点对应的文本数据,依次类推。
具体可以图2a为例进行说明,图2a是本发明实施例提供的一种文本数据解析的结构示意图,首先确定待解析的文本数据对应的待解析模型中各层级的节点21,如一级节点、二级节点、三级节点等,然后对各层级的节点进行编译处理22,得到所述待解析模型中各节点与模型规则的映射关系23,并将该映射关系存储于redis缓存中24,通过确定引用节点规则25,并对所述引用节点规则25进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则26之间的引用关系确定引用层级27,如一级引用层级、二级引用层级、三级引用层级等;按照所述引用层级的深度确定层级优先级,并按照所述层级优先级二次过滤引用节点规则。
在一个实施例中,还可以引用线程池来对引用节点对应的文本数据进行解析,该线程采用分而治之的处理方式,将待解析的文本数据分割成多个子任务数据,然后将子任务数据分配给不同的线程并发执行进行解析,可以极大地提高引用节点对应的文本数据的解析效率。具体可以图2b为例,图2b是本发明实施例提供一种文本数据分割方式的结构示意图,如图2b所示,通过将文本数据分割成多个子任务数据,并将各子任务数据分配给不同的线程并发进行并行求值将不同的线程并行求值得到的结果数据进行结果合并处理,得到最终的结果数据。
本发明实施例,通过这种方式优化了复杂规则的编译和解析过程,通过预处理和数据结构的优化减少规则的运算量,增加并行处理大幅度提升复杂文本数据的解析性能。
本发明实施例中,文本解析设备可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点;根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。通过这种方式优化了复杂规则的编译和解析过程,通过预处理和数据结构的优化减少规则的运算量,增加并行处理大幅度提升复杂文本数据的解析性能,有助于处理大规模的文本数据。
本发明实施例还提供了一种文本解析设备,该文本解析设备用于执行前述任一项所述的方法的单元。具体地,参见图3,图3是本发明实施例提供的一种文本解析设备的示意框图。本实施例的文本解析设备包括:获取单元301、确定单元302、编译单元303、解析单元304。
获取单元301,用于获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定单元302,用于确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
编译单元303,用于根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
解析单元304,用于根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述获取单元301对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型时,具体用于:
对所述待解析的文本数据进行拆分,并根据拆分结果判断所述文本数据中是否与预设的关键词集合中的关键词匹配;
如果判断结果为所述文本数据中存在与预设的关键词集合中相匹配的文本关键词,则根据预设的关键词与规则的对应关系确定与所述相匹配的文本关键词对应的模型规则;
根据预设的规则与模型的对应关系确定与所述模型规则对应的待解析模型。
进一步地,所述确定单元302根据所述模型规则确定所述待解析模型中各层级的节点时,具体用于:
根据所述模型规则确定各节点之间的节点引用关系,并根据所述节点引用关系确定节点树;
根据所述节点树确定与所述待解析模型的模型规则对应的各层级以及各层级中包括的节点。
进一步地,所述编译单元303根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系时,具体用于:
获取所述模型规则中包括的规则关键词,并根据所述模型规则中不同的规则关键词构建对应的规则结构;
根据所述规则结构确定各节点中的编译规则以及各节点中的编译规则之间的对应关系;
根据所述各节点中的编译规则之间的对应关系,对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
进一步地,所述解析单元304根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据时,具体用于:
根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;
根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述解析单元304根据所述待解析模型中各节点与规则的映射关系,对所述待解析的文本数据进行解析之前,还用于:
根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;
确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则。
进一步地,所述解析单元304根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据时,具体用于:
根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;
对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;
按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;
确定所述第一解析结果和所述第二解析结果为所述结果数据。
本发明实施例中,文本解析设备可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点;根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。通过这种方式优化了复杂规则的编译和解析过程,通过预处理和数据结构的优化减少规则的运算量,增加并行处理大幅度提升复杂文本数据的解析性能,有助于处理大规模的文本数据。
参见图4,图4是本发明实施例提供的一种终端的示意框图。如图4所示的本发明实施例中的终端可以包括:一个或多个处理器401和存储器402。存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行:
获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述处理器401对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型时,具体用于:
对所述待解析的文本数据进行拆分,并根据拆分结果判断所述文本数据中是否与预设的关键词集合中的关键词匹配;
如果判断结果为所述文本数据中存在与预设的关键词集合中相匹配的文本关键词,则根据预设的关键词与规则的对应关系确定与所述相匹配的文本关键词对应的模型规则;
根据预设的规则与模型的对应关系确定与所述模型规则对应的待解析模型。
进一步地,所述处理器401根据所述模型规则确定所述待解析模型中各层级的节点时,具体用于:
根据所述模型规则确定各节点之间的节点引用关系,并根据所述节点引用关系确定节点树;
根据所述节点树确定与所述待解析模型的模型规则对应的各层级以及各层级中包括的节点。
进一步地,所述处理器401根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系时,具体用于:
获取所述模型规则中包括的规则关键词,并根据所述模型规则中不同的规则关键词构建对应的规则结构;
根据所述规则结构确定各节点中的编译规则以及各节点中的编译规则之间的对应关系;
根据所述各节点中的编译规则之间的对应关系,对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
进一步地,所述处理器401根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据时,具体用于:
根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;
根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据。
进一步地,所述处理器401根据所述待解析模型中各节点与规则的映射关系,对所述待解析的文本数据进行解析之前,还用于:
根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;
确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则。
进一步地,所述处理器401根据所述正则表达式对所述待解析的文本数据进行解析,得到结果数据时,具体用于:
根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;
对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;
按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;
确定所述第一解析结果和所述第二解析结果为所述结果数据。
本发明实施例中,终端可以获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点;根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据。通过这种方式优化了复杂规则的编译和解析过程,通过预处理和数据结构的优化减少规则的运算量,增加并行处理大幅度提升复杂文本数据的解析性能,有助于处理大规模的文本数据。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图2所对应实施例中描述的文本解析方法,也可实现本发明图3所对应实施例的文本解析设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的文本解析设备的内部存储单元,例如文本解析设备的硬盘或内存。所述计算机可读存储介质也可以是所述文本解析设备的外部存储设备,例如所述文本解析设备上配备的插接式硬盘,智能存储卡(SmarSMedia Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述文本解析设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述文本解析设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种文本解析方法,其特征在于,所述方法包括:
获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据;
所述根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据之前,还包括:
根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;
确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则;
所述根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据,包括:
根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;
根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;
对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;
按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;
确定所述第一解析结果和所述第二解析结果为所述结果数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型,包括:
对所述待解析的文本数据进行拆分,并根据拆分结果判断所述文本数据中是否与预设的关键词集合中的关键词匹配;
如果判断结果为所述文本数据中存在与预设的关键词集合中相匹配的文本关键词,则根据预设的关键词与规则的对应关系确定与所述相匹配的文本关键词对应的模型规则;
根据预设的规则与模型的对应关系确定与所述模型规则对应的待解析模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述模型规则确定所述待解析模型中各层级的节点,包括:
根据所述模型规则确定各节点之间的节点引用关系,并根据所述节点引用关系确定节点树;
根据所述节点树确定与所述待解析模型的模型规则对应的各层级以及各层级中包括的节点。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系,包括:
获取所述模型规则中包括的规则关键词,并根据所述模型规则中不同的规则关键词构建对应的规则结构;
根据所述规则结构确定各节点中的编译规则以及各节点中的编译规则之间的对应关系;
根据所述各节点中的编译规则之间的对应关系,对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系。
5.一种文本解析设备,其特征在于,所述设备包括:
获取单元,用于获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定单元,用于确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
编译单元,用于根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
解析单元,用于根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据;
所述解析单元根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据之前,还用于根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则;
所述解析单元根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据,具体用于根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;确定所述第一解析结果和所述第二解析结果为所述结果数据。
6.一种终端,其特征在于,所述终端包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述程序指令,当所述程序指令被执行时,用于执行以下操作:
获取待解析的文本数据,并对所述待解析的文本数据进行预处理,确定得到所述待解析的文本数据对应的待解析模型;
确定与所述待解析模型对应的模型规则,并根据所述模型规则确定所述待解析模型中各层级的节点,其中,所述待解析模型中包括多个层级,所述多个层级中的每个层级中包括多个节点;
根据所述待解析模型的模型规则对所述待解析模型中各层级中包括的各节点进行编译处理,得到所述待解析模型中各节点与模型规则的映射关系;
根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据;
所述处理器根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据之前,还用于:
根据所述待解析模型中各节点与模型规则的映射关系,对所述待解析模型中各节点进行分类,得到引用节点和非引用节点;
确定与所述引用节点对应的引用节点规则以及确定与所述非引用节点对应的非引用节点规则;
所述处理器根据所述待解析模型中各节点与模型规则的映射关系对所述待解析的文本数据进行解析,得到结果数据时,具体用于:
根据所述待解析模型中各节点与模型规则的映射关系,按照指定编译格式生成对应的正则表达式;
根据所述正则表达式,按照所述非引用节点规则对所述非引用节点对应的文本数据进行解析,得到第一解析结果;
对所述引用节点规则进行过滤,过滤掉不需要参与解析的引用节点规则,并根据过滤后的所述引用节点规则和所述非引用节点规则之间的引用关系确定引用层级;
按照所述引用层级的深度确定层级优先级,并按照所述层级优先级和所述过滤后的引用节点规则对所述引用节点对应的文本数据进行解析,得到第二解析结果;
确定所述第一解析结果和所述第二解析结果为所述结果数据。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-4任一项所述的方法。
CN202011342383.2A 2020-11-25 2020-11-25 一种文本解析方法、设备、终端及存储介质 Active CN112287663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342383.2A CN112287663B (zh) 2020-11-25 2020-11-25 一种文本解析方法、设备、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342383.2A CN112287663B (zh) 2020-11-25 2020-11-25 一种文本解析方法、设备、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112287663A CN112287663A (zh) 2021-01-29
CN112287663B true CN112287663B (zh) 2022-08-12

Family

ID=74425459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342383.2A Active CN112287663B (zh) 2020-11-25 2020-11-25 一种文本解析方法、设备、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112287663B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923268B (zh) * 2021-09-08 2023-11-14 山东信通电子股份有限公司 一种针对多版本通信规约的解析方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006102849A1 (fr) * 2005-03-30 2006-10-05 Huawei Technologies Co., Ltd. Procede et dispositif de filtrage et d’analyse de chaines de caracteres abnf
KR101856487B1 (ko) * 2017-03-03 2018-06-19 주식회사 티맥스데이터 파싱을 처리하기 위한 컴퓨팅 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294666B (zh) * 2013-05-28 2017-03-01 百度在线网络技术(北京)有限公司 语法编译方法、语义解析方法以及对应装置
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN110889273A (zh) * 2019-11-29 2020-03-17 北京大米科技有限公司 数据处理方法、数据处理装置、存储介质和电子设备
CN111563385B (zh) * 2020-04-30 2023-12-26 北京百度网讯科技有限公司 语义处理方法、装置、电子设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006102849A1 (fr) * 2005-03-30 2006-10-05 Huawei Technologies Co., Ltd. Procede et dispositif de filtrage et d’analyse de chaines de caracteres abnf
KR101856487B1 (ko) * 2017-03-03 2018-06-19 주식회사 티맥스데이터 파싱을 처리하기 위한 컴퓨팅 장치

Also Published As

Publication number Publication date
CN112287663A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
US11221832B2 (en) Pruning engine
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
CN110929145B (zh) 舆情分析方法、装置、计算机装置及存储介质
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112507102B (zh) 基于预训练范式模型的预测部署系统、方法、装置及介质
WO2023093689A1 (zh) 一种计算图优化方法、装置及设备
CN112597307A (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN112287663B (zh) 一种文本解析方法、设备、终端及存储介质
CN115795061A (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
CN115828180A (zh) 一种基于解析优化和时序卷积网络的日志异常检测方法
WO2016093839A1 (en) Structuring of semi-structured log messages
CN113723542A (zh) 一种日志聚类处理方法及系统
CN116149669B (zh) 一种基于二进制文件的软件成分分析方法、装置以及介质
CN113434273B (zh) 数据处理方法、装置、系统及存储介质
CN114610576A (zh) 一种日志生成监控方法和装置
CN114879936A (zh) 一种面向自然语言需求的安全需求获取方法与系统
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN113344023A (zh) 一种代码推荐方法、装置及系统
CN112632229A (zh) 文本聚类方法及装置
CN111897932A (zh) 一种文本大数据的查询处理方法及系统
CN110705252A (zh) 技术合同判定方法、电子置、计算机设备和存储介质
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN115688771B (zh) 一种文书内容比对性能提升方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210201

Address after: 518000 room 64, 3 / F, building 364B, Jingui building, 68 Puti Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Pingan Zhihui Enterprise Information Management Co.,Ltd.

Address before: No.1411-14158, main tower of shipping center, No.59 Linhai Avenue, Nanshan street, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An digital information technology (Shenzhen) Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant