CN108268623B - 一种文本提取方法、装置、设备和介质 - Google Patents

一种文本提取方法、装置、设备和介质 Download PDF

Info

Publication number
CN108268623B
CN108268623B CN201810018448.4A CN201810018448A CN108268623B CN 108268623 B CN108268623 B CN 108268623B CN 201810018448 A CN201810018448 A CN 201810018448A CN 108268623 B CN108268623 B CN 108268623B
Authority
CN
China
Prior art keywords
text
extraction
information
text matching
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810018448.4A
Other languages
English (en)
Other versions
CN108268623A (zh
Inventor
徐涛
刘小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201810018448.4A priority Critical patent/CN108268623B/zh
Publication of CN108268623A publication Critical patent/CN108268623A/zh
Application granted granted Critical
Publication of CN108268623B publication Critical patent/CN108268623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本提取方法、装置、设备和介质。该方法包括:基于文本样本和信息提取需求,生成用于提取信息的配置信息;基于所述配置信息,从待提取文本中提取目标信息。根据本申请实施例的技术方案,对于不同文本分析和数据提取需求,无需重新开发特定提取需求的定制化代码,只需要按照系统提示进行提取信息配置和修改即可,极大的减少了开发人员的工作量,同时也提高了系统的可拓展性和可维护性。

Description

一种文本提取方法、装置、设备和介质
技术领域
本公开一般涉及计算机技术领域,具体涉及文本识别技术领域,尤其涉及一种文本提取方法、装置、设备和介质。
背景技术
一般用于运营分析的数据都是具有固定格式的数据,但这些具有固定格式的数据最初存在于不同的日志文本中,这些日志文本的输出内容不同,输出格式也不同,因此,为了从这些日志文本中提取出有价值的信息,往往需要定制化开发程序。
但是,由于定制化开发的程序不具有通用性,针对不同输出内容、不同输出格式的日志文本,需要分别定制化开发相应的程序,而且,一旦业务需求调整,就需要去逐行修改程序中的代码,这样不仅使得开发人员的工作量巨大,而且可维护性也较差。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种文本提取方案,无需重复开发程序,减少开发人员的工作量,同时提高程序的可维护性。
第一方面,本申请实施例提供了一种文本提取方法,包括:,
基于文本样本和信息提取需求,生成用于提取信息的配置信息;
基于所述配置信息,从待提取文本中提取目标信息。
第二方面,本申请实施例还提供了一种文本提取装置,包括:
配置信息生成单元,用于基于文本样本和信息提取需求,生成用于提取信息的配置信息;
提取单元,用于基于所述配置信息,从待提取文本中提取目标信息。
第三方面,本申请实施例还提供了一种设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如第一方面所述的方法。
本申请实施例提供的文本提取方案,基于文本样本和信息提取需求,生成用于提取信息的配置信息,利用该配置信息,从待提取文本中提取目标信息。按照本申请实施例的技术方案,对于不同文本分析和数据提取需求,无需重新开发特定提取需求的定制化代码,只需要按照系统提示进行提取信息配置和修改即可,极大的减少了开发人员的工作量,同时也提高了系统的可拓展性和可维护性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了从日志文本中提取网络访问控制列表的IP地址信息的示意图;
图2示出了本申请实施例提供的一种文本提取方法的示例性流程图;
图3示出了本申请实施例中基于逻辑关系操作指令对每个文本匹配指令对应的提取结果进行逻辑操作的示意图;
图4示出了本申请实施例中提供的文本提取方法在具体实例中的实现示意图;
图5示出了本申请实施例提供的一种文本提取装置的示例性结构框图;以及
图6示出了适于用来实现本申请实施例的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术中所提到的,为了从日志文本中提取出有价值的信息,需要定制化开发程序,而这些信息需要从日志文本的大量基线中提取,每条基线需要提取的信息各不相同。下面列举一例简单的基线进行说明:
该条基线的信息提取需求为:提取网络访问控制列表的IP地址信息。
参考图1,为从日志文本中提取网络访问控制列表的IP地址信息的示意图。
步骤1、遍历日志文本找到访问控制列表绑定的端口号,即找到文本行“acl 2098inbound”之后,提取端口号2098。
步骤2、根据步骤1中提取的端口号,找到日志文本中匹配端口号的访问控制列表描述,即根据端口号2098找到文本行“acl number 2098”。
步骤3、如果在步骤2中能够找到匹配的文本行,则处理相邻的下一行,找到允许访问的源IP地址,即从文本行“rule 5permit source 10.110.217.0 0.0.0.255”提取源IP地址10.110.217.0 0.0.0.255。
步骤4、如果执行完步骤1、2、3后无法找到源IP地址,则寻找ssh访问控制端口号,即找到文本行“ssh server acl 2002”,提取端口号2002。
步骤5、根据步骤4中提取的端口号找到文本中匹配端口号的访问控制列表描述,即根据端口号2002找到文本行“acl number/basic 2002”。
步骤6、如果在步骤5中能够找到匹配的文本行,则处理相邻下一行,找到允许访问的源IP地址,即从文本行“rule 13permit source 10.115.216.25 0”提取源IP地址10.115.216.25 0。
针对以上类似基线要求逐一进行信息提取实现,开发的工作量巨大,并且一旦基线的信息提取需求调整,程序代码将不得不随之修改,后续维护也相当痛苦。
鉴于现有技术的上述缺陷,本申请实施例提供了文本提取方案,无需重复开发程序,减少开发人员的工作量,同时提高程序的可维护性。
下面将参考附图并结合实施例来详细说明本申请。
为了方便后续信息提取的说明,本申请实施例中先对文本中的各类信息进行定义和说明:
1、每行文本的输出字符串个数m(m∈N);文本的行数n(n∈ N*);m和n均非无穷大。
2、文本中每行出现的信息用字母A标记,A表示特定业务中有意义的任意字符、单词和词组;比如,文本中第一行信息可以表示为: A11、A12、A13…A1m;
3、文本中每行待提取的值用字母V标记,如文本中第一行信息的待提取的值可以表示为:V11、V12、V13…V1m;
4、文本中可能出现上下文线索的标记(即文本中上下文关联变量),找到这些标记后才能进行后续文本信息提取。对这些上下文线索用字母T标记;T的出现与行列位置无关,用T1、T2、T3…Tm表示在文本出现的个数。
按照以上定义,我们就可以将现有已知的无固定格式的文本统一由如下表1的形式表示。
表1:
Figure BDA0001542755510000041
Figure BDA0001542755510000051
对文本中的各类信息进行定义之后,为了便于程序对待提取的信息进行识别,还需要对配置信息中出现的符号进行定义:
1、文本中需要提取的值通常是从上文到下文的情况,待提取的信息可能是连续行提取,也可能是跨行提取,在这种取值场景下,定义两个行关系标记符,分别为顺向跨行信息提取标记符和顺向连续行信息提取标记符。在本申请实施例中,顺向跨行信息提取标记符由“=>”表示,顺向连续行信息提取标记符由“->”表示。
2、文本中需要提取的值也可能是从下文到上文的情况,在这种取值场景下,定义两个行关系标记符,分别为逆向跨行信息提取标记符和逆向连续行提取标记符,其中,逆向跨行信息提取标记符用“<=”表示,逆向连续行提取标记符用“<-”表示。
3、文本中行关系标记符优先级关系为:<=><->=>>->。
4、定义文本中字段操作符“#”、“$”和“*”,其中,“*”为指示将提取的字段标记为临时变量的字段操作符,“#”为指示将提取的字段标记为目标信息的字段操作符,“$”为指示将标记为临时变量的字段进行赋值操作的字段操作符。
基于上述行关系标记符和字段操作符的定义,便可以搭配出不同的提取模式,具体见下表2所示。
表2:
Figure 2
除了上述提取模式之外,为了实现对文本的信息提取,还可以是上述多种提取模式的组合。
参考图2,其示出了本申请实施例提供的一种文本提取方法的示例性流程图。该方法包括如下步骤:
步骤210,基于文本样本和信息提取需求,生成用于提取信息的配置信息。
本申请实施例中,用户可以按照如上述表1和表2中的定义对文本样本进行分析,进而根据其信息提取需求创建一个预配置信息,然后基于该预配置信息对文本样本进行信息提取,如果从文本样本中得到的提取结果正确,则该预配置信息可用,确定为配置信息,后续再进行批量化的文本提取,如果从文本样本中得到的提取结果不正确,则该预配置信息不可用,再继续对该预配置信息进行修改调试,直至得到正确的提取结果为止。
步骤220,基于该配置信息,从待提取文本中提取目标信息。
本申请实施例中,配置信息可以包含文本匹配指令和与文本匹配指令对应的字段操作指令。
具体的,步骤220可以按照如下方式实现:
首先基于每个文本匹配指令以及其对应的字段操作指令,对待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;再根据每个文本匹配指令对应的提取结果,得到待提取文本中的目标信息。
进一步的,文本匹配指令可以包含若干文本匹配项以及与各文本匹配项关联的行关系标记符;
与文本匹配指令对应的字段操作指令可以包含与文本匹配指令中的各文本匹配项分别对应的字段操作位置和字段操作符;
则基于每个文本匹配指令以及其对应的字段操作指令,对待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果,具体包括:
基于每个文本匹配指令中的文本匹配项,以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符,对待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;其中,文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。
可选的,行关系标记符可以包括:
顺向跨行信息提取标记符、顺向连续行信息提取标记符、逆向跨行信息提取标记符和逆向连续行提取标记符中的至少一种。
可选的,行关系标记符的优先级可以为:
逆向跨行信息提取标记符>逆向连续行提取标记符>顺向跨行信息提取标记符>顺向连续行信息提取标记符。
可选的,字段操作符可以包括:
指示将提取的字段标记为临时变量的字段操作符、指示将提取的字段标记为目标信息的字段操作符和指示将标记为临时变量的字段进行赋值操作的字段操作符中的至少一项。
进一步的,配置信息还可以包含逻辑关系操作指令。
根据每个文本匹配指令对应的提取结果,得到待提取文本中的目标信息,可以具体包括:
基于逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到目标信息。
这里的逻辑操作可以但不限于包括交集操作、并集操作和去重操作中的至少一项。
比如,配置文件包含四个文本匹配指令,基于每个文本匹配指令以及其对应的字段操作指令,分别得到四个提取结果G1、G2、G3和 G4,交集操作由and表示,并集操作由or表示,去重操作由allowSame 表示,逻辑关系操作指令可以如下所示:
{"logic":["and","or","or"],"group":[1,3,2,4],"allowSame":false}
其中,group为对提取结果进行逻辑操作的处理顺序的关键字,其个数定义为G,由文本匹配指令的个数而定。
logic为逻辑操作的关键字,其个数定义为L,其中L=G-1。
基于这条逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到目标信息的过程参见图3所示,首先对G1和 G3进行交集操作,得到ResultSet1,再将ResultSet1和G2进行并集操作,得到ResultSet2,再将ResultSet2和G4进行并集操作,得到 ResultSet3,最后不进行去重操作,将ResultSet3确定为目标信息。
本申请实施例提供的文本提取方案,基于文本样本和信息提取需求,生成用于提取信息的配置信息,利用该配置信息,从待提取文本中提取目标信息。按照本申请实施例的技术方案,对于不同文本分析和数据提取需求,无需重新开发特定提取需求的定制化代码,只需要按照系统提示进行提取信息配置和修改即可,极大的减少了开发人员的工作量,同时也提高了系统的可拓展性和可维护性。
下面介绍一个具体实例对本申请实施例提供的文本提取方法进行说明。如图4所示,基于文本样本和信息提取需求生成的配置信息包括三部分:信息提取配置(本申请实施例中的文本匹配指令)、提取组配置(本申请实施例中的字段操作指令)和提取组关系配置(本申请实施例中的逻辑关系操作指令)。
其中,信息提取配置部分由两行指令组成,即两个文本匹配指令,每个文本指令中包含三个文本匹配项。
提取组配置部分由两行指令组成,即与每个文本匹配指令对应的字段操作指令,每个字段操作指令中包括与三个文本匹配项对应的三个字段操作位置和字段操作符。
以第一个文本匹配指令和对应的字段操作指令为例:
首先,基于行关系标记符优先级的先后顺序,先在待提取文本中匹配第一个文本匹配项acl(.*)inbound$,找到acl 2098inbound,基于字段操作指令中与该文本匹配项对应的字段操作位置[1],提取字段 2098,基于字段操作指令中与该文本匹配项对应的字段操作符“*”,将2098标记为临时变量;
基于第一个文本匹配项关联的行关系标记符“=>”以及字段操作指令中与第二个文本匹配项对应的字段操作位置[1]和字段操作符“$1”,将临时变量2098赋值给第二个文本匹配项,并在acl 2098 inbound的隔行开始匹配第二个文本匹配项acl(number│bacic)\s(#{1})$,找到acl number 2098;
再基于第二个文本匹配项关联的行关系标记符“->”,在acl number 2098的连续行开始匹配第三个文本匹配项rule\s\d+\spermit source(.*)$,找到rule 1permitsource 123.58.40.0.0.0.0.255,以及rule 1 permit source 218.17.130.0.0.0.0.255,基于字段操作指令中与该文本匹配项对应的字段操作位置[1],提取字段123.58.40.0.0.0.0.255和 218.17.130.0.0.0.0.255,基于字段操作指令中与该文本匹配项对应的字段操作符“#”,将123.58.40.0.0.0.0.255和218.17.130.0.0.0.0.255标记为目标信息。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
进一步参考图5,其示出了本申请实施例提供的一种文本提取装置的示例性结构框图。
该装置包括:
配置信息生成单元51,用于基于文本样本和信息提取需求,生成用于提取信息的配置信息;
提取单元52,用于基于所述配置信息,从待提取文本中提取目标信息。
可选的,所述配置信息包含文本匹配指令和与所述文本匹配指令对应的字段操作指令;
所述提取单元52,包括:
提取模块521,用于基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;
组合模块522,用于根据每个文本匹配指令对应的提取结果,得到所述目标信息。
可选的,所述配置信息还包含逻辑关系操作指令;
所述组合模块522,具体用于:
基于所述逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到所述目标信息。
可选的,所述文本匹配指令包含若干文本匹配项以及与各文本匹配项关联的行关系标记符;
与所述文本匹配指令对应的字段操作指令包含与所述文本匹配指令中的各文本匹配项分别对应的字段操作位置和字段操作符;
所述提取模块521,具体用于;
基于每个文本匹配指令中的文本匹配项,以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;其中,文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。
应当理解,该装置中记载的诸子系统或单元与参考图2-图4描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于该装置及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608 加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入 /输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考图2-图4描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行图2-图4的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种文本提取方法,其特征在于,所述方法包括:
基于文本样本和信息提取需求,生成用于提取信息的配置信息,所述配置信息包含文本匹配指令和与所述文本匹配指令对应的字段操作指令,所述文本匹配指令包含若干文本匹配项以及与各文本匹配项关联的行关系标记符,所述字段操作指令包含与各文本匹配项分别对应的字段操作位置和字段操作符,其中,所述行关系标记符包括顺向跨行信息提取标记符、顺向连续行信息提取标记符、逆向跨行信息提取标记符和逆向连续行提取标记符中的至少一种,所述字段操作符包括指示将提取的字段标记为临时变量的字段操作符、指示将提取的字段标记为目标信息的字段操作符和指示将标记为临时变量的字段进行赋值操作的字段操作符中的至少一项;
基于所述配置信息,从待提取文本中提取目标信息;
其中,所述基于所述配置信息,从待提取文本中提取目标信息,包括:
基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;
根据每个文本匹配指令对应的提取结果,得到所述目标信息;
其中,所述基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果,包括:
基于每个文本匹配指令中的文本匹配项,以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;其中,文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。
2.根据权利要求1所述的方法,其特征在于,所述配置信息还包含逻辑关系操作指令;
根据每个文本匹配指令对应的提取结果,得到所述目标信息,包括:
基于所述逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到所述目标信息。
3.根据权利要求2所述的方法,其特征在于,所述逻辑操作包括:交集操作、并集操作和去重操作中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述行关系标记符的优先级为:
逆向跨行信息提取标记符>逆向连续行提取标记符>顺向跨行信息提取标记符>顺向连续行信息提取标记符。
5.一种文本提取装置,其特征在于,所述装置包括:
配置信息生成单元,用于基于文本样本和信息提取需求,生成用于提取信息的配置信息,所述配置信息包含文本匹配指令和与所述文本匹配指令对应的字段操作指令,所述文本匹配指令包含若干文本匹配项以及与各文本匹配项关联的行关系标记符,所述字段操作指令包含与各文本匹配项分别对应的字段操作位置和字段操作符,其中,所述行关系标记符包括顺向跨行信息提取标记符、顺向连续行信息提取标记符、逆向跨行信息提取标记符和逆向连续行提取标记符中的至少一种,所述字段操作符包括指示将提取的字段标记为临时变量的字段操作符、指示将提取的字段标记为目标信息的字段操作符和指示将标记为临时变量的字段进行赋值操作的字段操作符中的至少一项;
提取单元,用于基于所述配置信息,从待提取文本中提取目标信息;
其中,所述提取单元,包括:
提取模块,用于基于每个文本匹配指令以及其对应的字段操作指令,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;
组合模块,用于根据每个文本匹配指令对应的提取结果,得到所述目标信息;
其中,所述提取模块,具体用于:
基于每个文本匹配指令中的文本匹配项,以及与每个文本匹配指令对应的字段操作指令中与每个文本匹配项对应的字段操作位置和字段操作符,对所述待提取文本进行信息提取操作,得到每个文本匹配指令对应的提取结果;其中,文本匹配项的执行顺序根据自身关联的行关系标记符的优先级的先后顺序确定。
6.如权利要求5所述的装置,其特征在于,所述配置信息还包含逻辑关系操作指令;
所述组合模块,具体用于:
基于所述逻辑关系操作指令,对每个文本匹配指令对应的提取结果进行逻辑操作,得到所述目标信息。
7.一种文本提取设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201810018448.4A 2018-01-09 2018-01-09 一种文本提取方法、装置、设备和介质 Active CN108268623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810018448.4A CN108268623B (zh) 2018-01-09 2018-01-09 一种文本提取方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810018448.4A CN108268623B (zh) 2018-01-09 2018-01-09 一种文本提取方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN108268623A CN108268623A (zh) 2018-07-10
CN108268623B true CN108268623B (zh) 2022-06-03

Family

ID=62773293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810018448.4A Active CN108268623B (zh) 2018-01-09 2018-01-09 一种文本提取方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN108268623B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7383882B2 (ja) * 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN118433143B (zh) * 2024-07-04 2024-08-30 井芯微电子技术(天津)有限公司 一种acl硬件固定模板域段匹配方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
CN105447099A (zh) * 2015-11-11 2016-03-30 中国建设银行股份有限公司 日志结构化信息提取方法及装置
CN106055585A (zh) * 2016-05-20 2016-10-26 北京神州绿盟信息安全科技股份有限公司 一种日志解析方法及装置
CN106919542A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 规则匹配方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009146447A (ja) * 2009-03-23 2009-07-02 Nec Corp テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
CN105447099A (zh) * 2015-11-11 2016-03-30 中国建设银行股份有限公司 日志结构化信息提取方法及装置
CN106919542A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 规则匹配方法及装置
CN106055585A (zh) * 2016-05-20 2016-10-26 北京神州绿盟信息安全科技股份有限公司 一种日志解析方法及装置

Also Published As

Publication number Publication date
CN108268623A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN108537183B (zh) 公式自动识别方法、装置、电子设备及存储介质
CN110837356B (zh) 一种数据处理方法和装置
CN109299219A (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN107870915B (zh) 对搜索结果的指示
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112905933A (zh) 页面跳转方法、装置、电子设备及存储介质
CN111506771A (zh) 一种视频检索方法、装置、设备及存储介质
CN108268623B (zh) 一种文本提取方法、装置、设备和介质
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN110196952B (zh) 程序代码的搜索处理方法、装置、设备及存储介质
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
CN109376220B (zh) 用于获取信息的方法和装置
CN115080743A (zh) 数据处理方法、数据处理装置、电子设备及存储介质
CN114996758A (zh) 一种数据脱敏方法、装置及电子设备
JPH03174653A (ja) キーワード管理方法およびその装置
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN109284480B (zh) 一种业务文档处理方法、装置及服务器
KR20060119439A (ko) 질의어를 다양한 로직에 따라 처리하여 매칭되는 결과를출력하는 질의어 매칭 방법 및 시스템
CN112559940A (zh) 页面标注方法、装置、设备及介质
CN113407264A (zh) 基于图像的终端界面识别方法、装置、设备和介质
US10909154B2 (en) Search system, search method and search program
CN113901780B (zh) 文件比对方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant