CN106202004A - 基于正则表达及分隔符的组合式数据切割方法 - Google Patents

基于正则表达及分隔符的组合式数据切割方法 Download PDF

Info

Publication number
CN106202004A
CN106202004A CN201610547584.3A CN201610547584A CN106202004A CN 106202004 A CN106202004 A CN 106202004A CN 201610547584 A CN201610547584 A CN 201610547584A CN 106202004 A CN106202004 A CN 106202004A
Authority
CN
China
Prior art keywords
designated
symbol
separator
word
regular expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610547584.3A
Other languages
English (en)
Other versions
CN106202004B (zh
Inventor
程永新
宋辉
谢涛
谭林
罗成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qingwei Software Co Ltd
Original Assignee
Shanghai Qingwei Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qingwei Software Co Ltd filed Critical Shanghai Qingwei Software Co Ltd
Priority to CN201610547584.3A priority Critical patent/CN106202004B/zh
Publication of CN106202004A publication Critical patent/CN106202004A/zh
Application granted granted Critical
Publication of CN106202004B publication Critical patent/CN106202004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于正则表达及分隔符的组合式数据切割方法,包括如下步骤:a)读取日志文件;b)按照时间戳或开始符识别并提取日志文件中的事件;c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取;所述步骤b)选取多个预设字符串作为开始符,并将多个预设字符串转换为多个正则表达式,然后遍历每一行日志数据,依次匹配每一个正则表达式。本发明提供的基于正则表达及分隔符的组合式数据切割方法,根据不同的事件类型采用不同的切割方式,每种切割方式对应一个范围内的日志,通过每种方式提供的字符串操作,从而满足各种复杂日志的快速识别切割,简单易用,并具有较好的扩展性。

Description

基于正则表达及分隔符的组合式数据切割方法
技术领域
本发明涉及一种数据切割提取方法,尤其涉及一种基于正则表达及分隔符的组合式数据切割方法。
背景技术
现有的数据切割提取方法主要有如下三种方式:
1.采用自己编写程序的方式进行数据切割提取,根据不同的数据格式,编写对应的数据切割程序,在程序中控制数据的切割规则及提取、输出。针对不同的平台可以采用不同的编程语言进行程序编写。编写程序进行数据切割的灵活度非常高,基本可以满足所有的数据切割的需求。
2.采用固定分割符的方式进行数据切割提取,此方案非常适合在数据比较格式化的情况下进行,通常数据是按某种固定的分割符进行格式化的,只需按照这种分隔符进行分割,在配合预先固定的字段顺序进行一一赋值即可提取数据。且效率较高,目前按照固定分隔符格式化的数据都能进行提取。
3.采用正则表达的方式进行数据提取,在目前数据源的种类及格式是非常多样的,往往数据的输出是没有采用固定格式的,固定分隔符的切割方案往往无法满足这种,所以需要具备切割灵活度非常高的方案才能进行数据切割。正则表达式具备了高度的灵活性,不同的数据格式,都可以通过一种正则表达式进行识别提取。数据通过正则表达式的逻辑过滤,满足该逻辑的则进行数据提取。
方式1的编程代码匹配存在如下缺点:针对每种数据都要进行一次程序编写、测试,耗时较大。需要具备一定水平的编程能力及调试能力。方式2的常用分割符匹配存在如下缺点:只能切割已经格式化的数据;不能精确提取;识别内容容易错位以及灵活度低。方式2的正则表达式匹配则存在如下缺点:需要具备较高的技术水平需求;正则表达式编写非常复杂,很容易出现误操作;难以维护和修改;扩展性较差;识别速度较慢,精度不够准确;不能精确提取;识别内容容易错位。
发明内容
本发明所要解决的技术问题是提供一种基于正则表达及分隔符的组合式数据切割方法,能够满足各种复杂日志的快速识别切割,简单易用,并具有较好的扩展性。
本发明为解决上述技术问题而采用的技术方案是提供一种基于正则表达及分隔符的组合式数据切割方法,包括如下步骤:a)读取日志文件;b)按照时间戳或开始符识别并提取日志文件中的事件;c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取。
上述的基于正则表达及分隔符的组合式数据切割方法,其中,所述步骤b)对日志文件中的每一行日志数据,按照时间戳识别并提取事件,具体过程如下:b1)初始化数据,将中英文的月份作为匹配时间中的月份的检索词;b2)将每一行日志数据按照字符和数字分开;b3)寻找时间中的时分秒格式,标识为time;b4)判断时间特征,寻找月份,标识为month;b5)通过下标距离计算距离时分秒最短的两位数字为日,标识为day;b6)寻找是否存在四位的整数,如果存在,则标识为year;b7)如果存在time,month,day,year或者time,month,day,则判断存在时间格式。
上述的基于正则表达及分隔符的组合式数据切割方法,其中,所述步骤b)选取多个预设字符串作为开始符,并将多个预设字符串转换为多个正则表达式,然后遍历每一行日志数据,依次匹配每一个正则表达式,如果存在一个满足匹配,则判断为事件的界限。
上述的基于正则表达及分隔符的组合式数据切割方法,其中,所述步骤c)包括:先对提取出来的事件内容按照预先定义的常用分割符号进行第一次切割,将切割出来的字段再进行二次切割;所述二次切割通过预先定义的常用分割符号再次切割或者通过鼠标滑动选中想要提取的内容;对切割出来的字段继续进行循环切割,直到划分出预定的目标结果;将切割后的内容组装成一个树形结构数据,通过转换生成正则表达式。
上述的基于正则表达及分隔符的组合式数据切割方法,其中,所述步骤c)将提取出来的事件内容划分为标识词和提取词,所述标识词在日志的开始下标记为markStartIndex,结束下标称记为markEndIndex,所述提取词在日志的开始下标记为wordStartIndex,结束下标记为wordEndIndex;所述步骤c)通过如下转换生成正则表达式:c1)获取下一个标识词,如果存在,那么通过该标识词markStartIndex和markEndIndex,得到该标识词的值,记为markValue,否则结束生成正则表达式;c2)对markValue进行字符分析,计算每个符号的个数,根据每一个符号的权值,计算出最大值权值的符号,作为标识符,根据标识符的格式动态生成正则表达式,记为markRegex;同时,记录该标识符出现在标识词最后的下标为markCharEndIndex;如果计算出没有符号权值,那么根据字符值译作为标识,也记为markRegex;c3)获取下一个提取词,通过提取词提取wordStartIndex和wordEndIndex,得到该提取词的值,记为wordValue;c4)判断wordValue左右是否有符号,如果存在符号,那么以符号标识该提取的开始和结束,记为wordRegex;如果不存在这样的符号,那么根据字符值译,标识为wordRegex;c5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值,根据正则表达式值译,记为midRegex;c6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex,该段的动态正则表达式匹配生成结束,重复步骤c1直至为所有的事件内容生成正则表达式。
本发明对比现有技术有如下的有益效果:本发明提供的基于正则表达及分隔符的组合式数据切割方法,根据不同的事件类型采用不同的切割方式,每种切割方式对应一个范围内的日志,通过每种方式提供的字符串操作,从而满足各种复杂日志的快速识别切割,简单易用,并具有较好的扩展性。
附图说明
图1为本发明的日志文件的整体解析流程图;
图2为本发明采用开始符确定日志的event模型格式流程图;
图3为本发明基于常规分隔符的数据切割流程图;
图4为本发明通过鼠标滑动选中提取内容的数据切割流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明的日志文件的整体解析流程图。
请参见图1,本发明提供的基于正则表达及分隔符的组合式数据切割方法,包括Event(模型)确认和按类型切割两个步骤。Event(模型)确认方法有如下两种:
1、时间戳识别方式
该方法将每一行日志数据,通过时间识别算法判断,如果存在时间格式,那么可以判断为event的界限,否则该日志不是event的界限。时间识别算法如下:
(1)初始化数据,将中文的月份和英文的月份作为匹配时间中的月份的重要信息。
(2)将日志数据按照字符,数字,字符分开,例如[11/Nov/2015:10:56:43 35,将会分成[,11,/,Nov,/,2015,:,10,:,56,:,43,35;
(3)寻找时间中的时分秒格式,例如10:56:43可以作为判断时间的初步判断,即是时间的时分秒存在,标识为time;
(4)判断时间特征,寻找月份,例如Nov,即是时间的月份存在,标识为month;
(5)通过下标距离算法计算两位数字的到时间中的时分秒的距离,记录最短为日,月,例如11标识为day;
(6)寻找是否存在四位的整数,如果存在,那么标识为year,例如2015;
(7)如果存在time,month,day,year或者time,month,day,那么说明存在时间,否则不存在时间格式。
时间识别还可配合下标距离算法:
(1)获取下标对应的值;
(2)和时间中的时分秒进行相减的差相乘,算出来的值,作为距离的值。
2、自定义(开始符识别)
该方法将多个字符串转换为多个正则表达式,遍历每一行日志数据,依次匹配每一个正则表达式,如果存在一个满足,退出匹配,可以判断为event的界限,否则该行日志不是event的界限。通过以上两种方式先确定日志的event(模型)格式,提取出每个日志中自己想要的event(模型),可以一个也可以多个,再针对每个模型进行切割,如图2所示。
本发明的日志切割过程包括:
1、常规分割符号
1)、先通过一些定义的常用分割符号进行第一次切割,将切割出来的字段在进行二次切割。
2)、二次切割只有两种方式:1、通过常规分割符号在次切割2、通过鼠标滑动选中想要提取的内容。
3)、切割出来的字段可以再次切割,可以无限的切割下去,直到切出自己想要的结果。
4)、切割后内容成一个树形结构数据,通过转换成正则表达式,如图3所示。
2、正则匹配
1)、通过鼠标滑动选中字段,将字段提取出来,并获取到其开始下标,结束下标。
2)、将该内容组装成树形数据结构,字段会通过转化代码生成正则表达式,如图4所示。
本发明提供的基于正则表达及分隔符的组合式数据切割方法,按照以下方式生成正则表达式:
日志数据概念说明:192.168.4.150[11/Nov/2015:10:56:43,提取其中的11/Nov/2015:10:56:43。其中的192.168.4.150称为标识词,而该词在日志的开始下标称为标识词的开始下标,记为markStartIndex,结束下标称为标识词的结束下标,记为markEndIndex,而11/Nov/2015:10:56:43成为提取词,而该词的在日志的开始下标称为提取词的开始下标,记为记为wordStartIndex,结束下标称为提取的结束下标,记为wordEndIndex。算法步骤如下:
(1)获取下一个标识词,如果存在,那么通过该标识词markStartIndex和markEndIndex,得到该标识词的值,记为markValue,否则结束生成正则表达式。
(2)对markValue进行字符分析,计算每个符号的个数,根据每一个符号的权值,计算出最大的符号权值作为标识符,根据标识符的格式动态生成正则表达式,记为markRegex。同时,记录该标识符出现在标识词最后的下标为markCharEndIndex。如果计算出没有符号权值,那么根据字符值译作为标识,也记为markRegex。
(3)获取下一个提取词,通过提取词提取wordStartIndex和wordEndIndex,得到该提取词的值,记为wordValue。
(4)判断wordValue,左右是否有符号,如果存在符号,那么以符号标识该提取的开始和结束,记为wordRegex。如果不存在这样的符号,那么根据字符值译,标识为wordRegex。
(5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值,根据正则表达式值译,记为midRegex。
(6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex,该段的动态正则表达式匹配生成结束,重复进行步骤(1)。
综上所述,本发明提供的基于正则表达及分隔符的组合式数据切割方法,通过提取多个不同类型的event,多个不同的类型按不同时的切割方式进行切割,提取模型越多识别越精确;从而可以快速识别多行数据并自动化合成一个事件数据,满足多数据格式的多次数据切割需求,并可自由结合使用正则表达及分割符。具体优点如下:1)用户只需要对字符串进行操作,不需要特别学习正则表达式;2)可采用可视化界面,用户可以清楚的知道自己提取了什么字段;3)简单、易用;4)可以支持大部分日志;5)性能比人工写的正则要好,识别速度快;6)对于复杂的日志可以通过二次切割非常快速的提取想要的结果;7)拥有较好的扩展性。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (5)

1.一种基于正则表达及分隔符的组合式数据切割方法,其特征在于,包括如下步骤:
a)读取日志文件;
b)按照时间戳或开始符识别并提取日志文件中的事件;
c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取。
2.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法,其特征在于,所述步骤b)对日志文件中的每一行日志数据,按照时间戳识别并提取事件,具体过程如下:
b1)初始化数据,将中英文的月份作为匹配时间中的月份的检索词;
b2)将每一行日志数据按照字符和数字分开;
b3)寻找时间中的时分秒格式,标识为time;
b4)判断时间特征,寻找月份,标识为month;
b5)通过下标距离计算距离时分秒最短的两位数字为日,标识为day;
b6)寻找是否存在四位的整数,如果存在,则标识为year;
b7)如果存在time,month,day,year或者time,month,day,则判断存在时间格式。
3.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法,其特征在于,所述步骤b)选取多个预设字符串作为开始符,并将多个预设字符串转换为多个正则表达式,然后遍历每一行日志数据,依次匹配每一个正则表达式,如果存在一个满足匹配,则判断为事件的界限。
4.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法,其特征在于,所述步骤c)包括:
先对提取出来的事件内容按照预先定义的常用分割符号进行第一次切割,将切割出来的字段再进行二次切割;
所述二次切割通过预先定义的常用分割符号再次切割或者通过鼠标滑动选中想要提取的内容;
对切割出来的字段继续进行循环切割,直到划分出预定的目标结果;
将切割后的内容组装成一个树形结构数据,通过转换生成正则表达式。
5.如权利要求4所述的基于正则表达及分隔符的组合式数据切割方法,其特征在于,所述步骤c)将提取出来的事件内容划分为标识词和提取词,所述标识词在日志的开始下标记为markStartIndex,结束下标称记为markEndIndex,所述提取词在日志的开始下标记为wordStartIndex,结束下标记为wordEndIndex;所述步骤c)通过如下转换生成正则表达式:
c1)获取下一个标识词,如果存在,那么通过该标识词markStartIndex和markEndIndex,得到该标识词的值,记为markValue,否则结束生成正则表达式;
c2)对markValue进行字符分析,计算每个符号的个数,根据每一个符号的权值,计算出最大的符号权值作为标识符,根据标识符的格式动态生成正则表达式,记为markRegex;同时,记录该标识符出现在标识词最后的下标为markCharEndIndex;如果计算出没有符号权值,那么根据字符值译作为标识,也记为markRegex;
c3)获取下一个提取词,通过提取词提取wordStartIndex和wordEndIndex,得到该提取词的值,记为wordValue;
c4)判断wordValue左右是否有符号,如果存在符号,那么以符号标识该提取的开始和结束,记为wordRegex;如果不存在这样的符号,那么根据字符值译,标识为wordRegex;
c5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值,根据正则表达式值译,记为midRegex;
c6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex,该段的动态正则表达式匹配生成结束,重复步骤c1直至为所有的事件内容生成正则表达式。
CN201610547584.3A 2016-07-13 2016-07-13 基于正则表达及分隔符的组合式数据切割方法 Active CN106202004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610547584.3A CN106202004B (zh) 2016-07-13 2016-07-13 基于正则表达及分隔符的组合式数据切割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610547584.3A CN106202004B (zh) 2016-07-13 2016-07-13 基于正则表达及分隔符的组合式数据切割方法

Publications (2)

Publication Number Publication Date
CN106202004A true CN106202004A (zh) 2016-12-07
CN106202004B CN106202004B (zh) 2019-10-11

Family

ID=57476546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610547584.3A Active CN106202004B (zh) 2016-07-13 2016-07-13 基于正则表达及分隔符的组合式数据切割方法

Country Status (1)

Country Link
CN (1) CN106202004B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802886A (zh) * 2016-12-30 2017-06-06 语联网(武汉)信息技术有限公司 一种多语文本的切词方法
CN106919499A (zh) * 2017-02-27 2017-07-04 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN107291942A (zh) * 2017-07-10 2017-10-24 国家电网公司 分布式日志的搜索方法和装置
CN107423204A (zh) * 2017-06-30 2017-12-01 北京五八信息技术有限公司 应用程序的操作日志的处理方法、装置以及终端
CN107657020A (zh) * 2017-09-27 2018-02-02 上海斐讯数据通信技术有限公司 一种海量小文件快速识别处理的方法及系统
CN107769958A (zh) * 2017-09-01 2018-03-06 杭州安恒信息技术有限公司 基于日志的服务器网络安全事件自动化分析方法及系统
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108415930A (zh) * 2018-01-19 2018-08-17 大象慧云信息技术有限公司 一种数据解析方法及装置
CN108959248A (zh) * 2018-06-21 2018-12-07 北京明略软件系统有限公司 一种实体标注方法和装置、计算机可读存储介质
CN109726185A (zh) * 2018-12-28 2019-05-07 杭州安恒信息技术股份有限公司 一种基于语法树的日志解析方法、系统和计算机可读介质
CN111046012A (zh) * 2019-12-02 2020-04-21 东软集团股份有限公司 巡检日志的抽取方法、装置、存储介质和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610174A (zh) * 2009-07-24 2009-12-23 深圳市永达电子股份有限公司 一种日志关联分析系统与方法
CN102457475A (zh) * 2010-10-15 2012-05-16 中国人民解放军国防科学技术大学 网络安全数据集成与转换系统
US20130268848A1 (en) * 2012-04-05 2013-10-10 Nokia Corporation User event content, associated apparatus and methods
US20150025875A1 (en) * 2013-07-19 2015-01-22 Tibco Software Inc. Semantics-oriented analysis of log message content
US20150213066A1 (en) * 2014-01-29 2015-07-30 Nancy Yan System and method for creating data models from complex raw log files
CN104899264A (zh) * 2015-05-21 2015-09-09 东软集团股份有限公司 一种多模式正则表达式匹配方法及装置
CN105407083A (zh) * 2015-10-21 2016-03-16 蓝盾信息安全技术股份有限公司 基于属性的多模型联合事件分析
CN105426360A (zh) * 2015-11-12 2016-03-23 中国建设银行股份有限公司 一种关键词抽取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610174A (zh) * 2009-07-24 2009-12-23 深圳市永达电子股份有限公司 一种日志关联分析系统与方法
CN102457475A (zh) * 2010-10-15 2012-05-16 中国人民解放军国防科学技术大学 网络安全数据集成与转换系统
US20130268848A1 (en) * 2012-04-05 2013-10-10 Nokia Corporation User event content, associated apparatus and methods
US20150025875A1 (en) * 2013-07-19 2015-01-22 Tibco Software Inc. Semantics-oriented analysis of log message content
US20150213066A1 (en) * 2014-01-29 2015-07-30 Nancy Yan System and method for creating data models from complex raw log files
CN104899264A (zh) * 2015-05-21 2015-09-09 东软集团股份有限公司 一种多模式正则表达式匹配方法及装置
CN105407083A (zh) * 2015-10-21 2016-03-16 蓝盾信息安全技术股份有限公司 基于属性的多模型联合事件分析
CN105426360A (zh) * 2015-11-12 2016-03-23 中国建设银行股份有限公司 一种关键词抽取方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802886A (zh) * 2016-12-30 2017-06-06 语联网(武汉)信息技术有限公司 一种多语文本的切词方法
CN106919499B (zh) * 2017-02-27 2021-06-11 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN106919499A (zh) * 2017-02-27 2017-07-04 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN107423204A (zh) * 2017-06-30 2017-12-01 北京五八信息技术有限公司 应用程序的操作日志的处理方法、装置以及终端
CN107291942A (zh) * 2017-07-10 2017-10-24 国家电网公司 分布式日志的搜索方法和装置
CN107769958A (zh) * 2017-09-01 2018-03-06 杭州安恒信息技术有限公司 基于日志的服务器网络安全事件自动化分析方法及系统
CN107657020A (zh) * 2017-09-27 2018-02-02 上海斐讯数据通信技术有限公司 一种海量小文件快速识别处理的方法及系统
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN108228710B (zh) * 2017-11-30 2021-09-28 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN107918865A (zh) * 2017-12-08 2018-04-17 中国平安财产保险股份有限公司 保单数据批改处理方法、装置、服务器和存储介质
CN108415930A (zh) * 2018-01-19 2018-08-17 大象慧云信息技术有限公司 一种数据解析方法及装置
CN108415930B (zh) * 2018-01-19 2021-07-09 大象慧云信息技术有限公司 一种数据解析方法及装置
CN108959248A (zh) * 2018-06-21 2018-12-07 北京明略软件系统有限公司 一种实体标注方法和装置、计算机可读存储介质
CN109726185B (zh) * 2018-12-28 2020-12-25 杭州安恒信息技术股份有限公司 一种基于语法树的日志解析方法、系统和计算机可读介质
CN109726185A (zh) * 2018-12-28 2019-05-07 杭州安恒信息技术股份有限公司 一种基于语法树的日志解析方法、系统和计算机可读介质
CN111046012A (zh) * 2019-12-02 2020-04-21 东软集团股份有限公司 巡检日志的抽取方法、装置、存储介质和电子设备
CN111046012B (zh) * 2019-12-02 2023-09-26 东软集团股份有限公司 巡检日志的抽取方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN106202004B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN106202004A (zh) 基于正则表达及分隔符的组合式数据切割方法
CN106844352B (zh) 基于神经机器翻译系统的单词预测方法及系统
CN109145260B (zh) 一种文本信息自动提取方法
CN101620615B (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN105069021B (zh) 基于领域的中文短文本情感分类方法
CN103324609B (zh) 文本校对装置和文本校对方法
CN107992481B (zh) 一种基于多叉树的正则表达式匹配方法、装置及系统
CN109189942A (zh) 一种专利数据知识图谱的构建方法及装置
CN103246891B (zh) 一种基于Kinect的中国手语识别方法
CN107291684B (zh) 语言文本的分词方法和系统
US20220138193A1 (en) Conversion method and systems from natural language to structured query language
CN110008335A (zh) 自然语言处理的方法及装置
CN105786898B (zh) 一种领域本体的构建方法和装置
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN104778157A (zh) 一种多文档摘要句的生成方法
CN109684374A (zh) 一种时间序列数据的键值对的提取方法及装置
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
CN105389303B (zh) 一种异源语料自动融合方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN109359701A (zh) 一种高精度提取和快速分类的三维模型数据解析方法
CN114997288A (zh) 一种设计资源关联方法
CN109190119A (zh) 时间提取方法和装置、存储介质及电子装置
CN116910633A (zh) 一种基于多模态知识混合推理的电网故障预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant