CN105760492A - 数据分析方法及装置 - Google Patents

数据分析方法及装置 Download PDF

Info

Publication number
CN105760492A
CN105760492A CN201610091664.2A CN201610091664A CN105760492A CN 105760492 A CN105760492 A CN 105760492A CN 201610091664 A CN201610091664 A CN 201610091664A CN 105760492 A CN105760492 A CN 105760492A
Authority
CN
China
Prior art keywords
data
analyzed
regular expression
field
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610091664.2A
Other languages
English (en)
Other versions
CN105760492B (zh
Inventor
刘杰
闵宇
汪洋
李坤祥
叶浩斌
张国文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ruijiang Cloud Computing Co Ltd
Original Assignee
Guangdong Ruijiang Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ruijiang Cloud Computing Co Ltd filed Critical Guangdong Ruijiang Cloud Computing Co Ltd
Priority to CN201610091664.2A priority Critical patent/CN105760492B/zh
Publication of CN105760492A publication Critical patent/CN105760492A/zh
Application granted granted Critical
Publication of CN105760492B publication Critical patent/CN105760492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据分析方法及装置。该方法包括:获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。本发明实施例提供的数据分析方法及装置,以提高数据分析的通用性。

Description

数据分析方法及装置
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种数据分析方法及装置。
背景技术
近几年,由于数据在互联网领域的持续增长,各公司都面临海量数据的处理需求。部门内的数据分析主要为公司各部门运维服务,数据分析主要基于各部门的服务器产生的日志来进行分析,目的是基于这些日志对用户访问、数据流量在时间维度、产品线维度、域名维度等有明确的量化数据,从而为公司服务器运维管理、流量分配、预估等提供建议。
在现有的数据分析系统中,针对用户不同的分析需求,需要采用专用的数据分析方法,即针对用户不同的分析需求,都需要设计一套数据分析方法。因此,导致数据分析的效率底下,成本高昂。
发明内容
本发明实施例提供一种数据分析方法及装置,以提高数据分析的通用性。
第一方面,本发明实施例提供了一种数据分析方法,该方法包括:
获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;
根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;
根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
第二方面,本发明实施例还提供了一种数据分析装置,该装置包括:
获取模块,用于获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;
分解模块,用于根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;
统计分析模块,用于根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
本发明通过根据用户分析需要设定数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表,实现对待分析数据的不同需求的分解和提取,提高了数据分析的通用性。
附图说明
图1是本发明实施例一提供的一种数据分析方法的流程图;
图2是本发明实施例二提供的一种数据分析方法的流程图;
图3是本发明实施例三提供的一种数据分析方法的流程图;
图4是本发明实施例四提供的一种数据分析方法的流程图;
图5是本发明实施例五提供的一种数据分析装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种数据分析方法的流程图。本实施例可适用于数据统计分析的情况,该方法可以由数据分析装置来执行,数据分析装置可以由硬件和/或软件的方式实现。参见图1,本实施例提供的数据分析方法具体包括如下:
S110、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。
其中,待分析数据为具有分界标志的数据,数据段分解正则表达式为对数据段进行分解的正则表达式,所述数据段分解正则表达式可以根据标点符号进行定义,例如数据段分解正则表达式可以为:姓名:(字符串),年龄:(数字)岁,身高:(数字)厘米,对应的数据项名称列表可以为:1:姓名,2:年龄,3:身高。获取待分析数据的方式可以是一次全部获取,但为了节省内存空间的占用量,优选是根据设定数据长度获取待分析数据。例如,每次获取待分析数据中的10比特的数据。
S120、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对。
其中,数据段为待分析数据中包含的由边界标志分开的一段数据。数据项值为对应数据项名称的值,数据项名称是对数据的一种标识,可以是年龄和身高等,对应的数据项值可以为20和160。中间数据对为根据数据项值与所述数据项名称列表进行关联形成的,以数据项名称对应数据项值形式存储的数据,例如:年龄:20,身高:160。
S130、根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
其中,统计规则为执行统计分析的规则,用户可以根据需要设定,例如可以是对部门员工工资的累加,也可以是对年级数学成绩大于一定阈值的学生的统计。
本实施例的技术方案,通过获取根据用户分析需要设定的数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表,并结合设定统计规则,实现对待分析数据的不同需求的分解和统计,提高了数据分析的通用性和数据分析的效率。
实施例二
本实施例在上述实施例的基础上具体提供了一种数据分析方法。图2是本发明实施例二提供的一种数据分析方法的流程图。参见图2,本实施例提供的数据分析的方法具体包括如下:
S210、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。
S220、获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
其中,边界鉴定正则表达式为用于鉴定获取待分析数据的边界的正则表达式,例如可以是分号、逗号或者其他形式的字符。边界鉴定正则表达式是用户根据待分析数据设定的,对待分析数据执行边界鉴定的方式可以是对待分析数据中固定长度的数据遍历边界标志,遍历到边界标志就将该边界标志对应的数据段提取出来。也可以是遍历全部的待分析数据,利用边界鉴定表达式提取待分析数据中的全部数据段。
S230、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对。
S240、根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
本实施例技术方案,通过根据获取的边界鉴定正则表达式,实现对具有不同边界标志的待分析数据的边界鉴定,提高数据段提取的准确性,从而提高数据分析的通用性。
实施例三
本实施例是在上述实施例的基础上具体提供的一种数据分析方法。图3是本发明实施例三提供的一种数据分析方法的流程图。参见图3,本实施例提供的数据分析方法具体包括如下:
S310、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。
S320、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对。
S330、获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段。
其中,统计分析结果字段表中可以包括一个或多个结果字段,每个结果字段可以包括一个字段统计公式。结果字段指明对具有设定数据项名称的数据进行统计。
S340、根据字段统计公式,对所述中间数据对中的相应数据进行统计。
字段统计公式可以指明需要对具有设定数据项名称的数据进行统计,将所述中间数据对中的与字段统计公式的数据项名称对应的数据项值带入字段统计公式中进行统计计算,得到数据分析结果。
优选的,所述结果字段还可以包括字段值;根据字段统计公式,对所述中间数据对中的相应数据进行统计,可以包括:将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
字段统计公式中可以包含字段值和中间数据对中的数据项名称,在对数据进行统计之前,可以将字段值赋值为0,字段值表示数据统计的中间结果。在对数据进行统计时,将字段值和与字段统计公式中的中间数据对中数据项名称对应的数据项值代入字段统计公式,计算得出新的字段值。将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
本实施例技术方案,通过获取根据用户需要设定的统计分析结果字段表中的结果字段,实现对不同统计规则需求的统计分析,进一步提高数据分析的通用性。
实施例四
本实施例是在上述实施例的基础上提出的一种数据分析方法的具体实例。图4是本发明实施例四提供的一种数据分析方法流程图。参见图4,本实施例提供的数据分析方法具体包括如下:
S410、从数据源中读取一部分数据。
其中,数据源为所述待分析数据,读取一部分数据可以是从待分析数据中获取固定长度的待分析数据。例如,数据源为“姓名:张一山,年龄:20岁,身高:160厘米;姓名:李四,年龄:9岁,身高:100厘米;姓名:王五,年龄:50岁,身高:180厘米”。从数据源中读取25个字符长度的数据,则获取的数据为“姓名:张一山,年龄:20岁,身高:160厘米;姓名”。
S420、获取数据源分段的边界正则表达式,对读取的数据应用边界正则表达式。
其中,边界正则表达式为所述边界鉴定表达式,例如,边界正则表达式为“;”。对获取的数据为“姓名:张一山,年龄:20岁,身高:160厘米;姓名”应用边界正则表达式“;”进行正则匹配。
S430、判断边界正则匹配结果。
其中,边界正则匹配为对读取的数据应用边界正则表达式进行的匹配,如果匹配成功,则生成数据段作为边界正则匹配结果;如果匹配失败,则将返回继续执行S410。例如,在读取的数据“姓名:张一山,年龄:20岁,身高:160厘米;姓名”中匹配到“;”,则将“;”对应的分段数据作为一个数据段,该数据段为“姓名:张一山,年龄:20岁,身高:160厘米”,并将该数据段作为边界正则匹配结果。
S440、如果边界正则匹配成功,则获取数据段分解正则表达式和对应的数据项名称,并对边界正则匹配结果应用数据段分解正则表达式。
其中,对应的数据项名称为所述数据项名称列表中与数据段分解正则表达式对应的数据项的名称,例如,数据段分解表达式可以为:姓名:(字符串),年龄:(数字)岁,身高:(数字)厘米;对应的数据项名称为:1:姓名,2:年龄,3:身高。同时,将数据段分解表达式应用于边界正则匹配结果中。
S450、判断数据段分解正则匹配结果。
其中,数据段分解正则匹配为,对数据段应用数据段分解正则表达式进行的匹配。如果匹配成功,则生成对应的数据项值作为数据段分解正则匹配结果;如果匹配失败,则返回S410。例如,对数据段为“姓名:张一山,年龄:20岁,身高:160厘米”的数据段分解正则匹配结果为:姓名:(张一山),年龄:(20)岁,身高:(160)厘米。其中,姓名、年龄和身高为数据项名称,括号内的值为数据项值。
S460、如果匹配成功,将数据段分解正则匹配结果和获取的用户数据项名称对应,产生中间结果集。
其中,中间结果集为所述中间数据对,例如,用户数据项名称可以为:1:姓名,2:年龄,3:身高。将数据段分解正则匹配结果与数据项名称对应,可以产生姓名对应张一山、年龄对应20和身高对应160的中间结果集。
S470、获取需要分析的最终结果字段集,遍历最终结果字段集中的每一个字段,并将中间结果集和最终结果字段集代入到结果字段集相应的字段的公式中计算得到字段的值。
其中,结果字段集为所述统计分析结果字段表,结果字段集中的字段为所述结果字段,结果字段集中可以包括一个或多个字段,每个字段可以包括一个字段的公式和一个字段的值,字段的公式为所述字段统计公式,字段的值为所述字段值。例如,当前遍历到的字段可以为“年龄累加”,该字段的公式可以是“字段的值+年龄”,设定字段的值的初始值为0。将中间结果集中对应数据项名称为“年龄”的数据项值20代入字段的公式为0+20=20,并将计算结果值20替换原有字段的值保存至结果字段集的“年龄累加”字段的字段的值中,该结果字段集作为下次统计计算的最终结果字段集。
S480、判断数据源是否读取完毕。
其中,如果没有读取完毕,则将返回步骤S410继续依次执行。
S490、如果读取完毕,则将结果字段集输出并显示。
本实施例的技术方案,通过获取的根据用户需要设定的边界鉴定正则表达式、数据段分解正则表达式、对应数据段分解正则表达式的数据项名称列表和统计分析结果字段表,实现对不同边界标志、不同分析需求和不同统计规则的统计分析,进一步提高数据分析的通用性。
实施例五
图5是本发明实施例五提供的一种数据分析装置的结构示意图。本实施例是在上述实施例的基础上提供的一种数据分析装置。参见图5,本实施例提供的数据分析装置包括:获取模块10、分解模块20和统计分析模块30。
其中,获取模块10,用于获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;分解模块20,用于根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;统计分析模块30,用于根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
进一步的,所述装置还可以包括:边界鉴定模块,用于在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
具体的,所述统计分析模块可以包括:结果字段单元,用于获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;统计单元,用于根据字段统计公式,对所述中间数据对中的相应数据进行统计。
优选的,所述结果字段还可以包括字段值;所述统计单元可以包括:字段值计算器,用于将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;字段值存储器,用于将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
可选的,所述获取待分析数据可以包括:根据设定数据长度获取待分析数据。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;
根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;
根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
2.根据权利要求1所述的方法,其特征在于,在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,还包括:
获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
3.根据权利要求1或2所述的方法,其特征在于,对所述中间数据对进行统计分析,得到数据分析结果,包括:
获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;
根据字段统计公式,对所述中间数据对中的相应数据进行统计。
4.根据权利要求3所述的方法,其特征在于,所述结果字段还包括字段值;
根据字段统计公式,对所述中间数据对中的相应数据进行统计,包括:
将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;
将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
5.根据权利要求1或2所述的方法,其特征在于,所述获取待分析数据,包括:
根据设定数据长度获取待分析数据。
6.一种数据分析装置,其特征在于,包括:
获取模块,用于获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;
分解模块,用于根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;
统计分析模块,用于根据设定统计规则,对所述中间数据对进行统计分析,得到数据分析结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
边界鉴定模块,用于在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
8.根据权利要求6或7所述的装置,其特征在于,所述统计分析模块,包括:
结果字段单元,用于获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;
统计单元,用于根据字段统计公式,对所述中间数据对中的相应数据进行统计。
9.根据权利要求8所述的装置,其特征在于,所述结果字段还包括字段值;
所述统计单元,包括:
字段值计算器,用于将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;
字段值存储器,用于将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
10.根据权利要求6或7所述的装置,其特征在于,所述获取待分析数据,包括:
根据设定数据长度获取待分析数据。
CN201610091664.2A 2016-02-18 2016-02-18 数据分析方法及装置 Active CN105760492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610091664.2A CN105760492B (zh) 2016-02-18 2016-02-18 数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610091664.2A CN105760492B (zh) 2016-02-18 2016-02-18 数据分析方法及装置

Publications (2)

Publication Number Publication Date
CN105760492A true CN105760492A (zh) 2016-07-13
CN105760492B CN105760492B (zh) 2019-10-15

Family

ID=56330120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610091664.2A Active CN105760492B (zh) 2016-02-18 2016-02-18 数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN105760492B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657032A (zh) * 2017-09-28 2018-02-02 佛山市南方数据科学研究院 一种互联网大数据分析提取方法
CN108280126A (zh) * 2017-12-13 2018-07-13 浙江工商职业技术学院 一种大数据分析处理方法
CN109726284A (zh) * 2018-12-07 2019-05-07 成都品果科技有限公司 一种通用性强的数据分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314460A (zh) * 2010-07-07 2012-01-11 阿里巴巴集团控股有限公司 数据分析方法、系统及服务器
CN103646049A (zh) * 2013-11-26 2014-03-19 中国银行股份有限公司 自动生成数据报表的方法及系统
CN103778244A (zh) * 2014-02-11 2014-05-07 五八同城信息技术有限公司 一种基于用户行为日志的自动化报表分析方法
US20140236972A1 (en) * 2013-02-19 2014-08-21 Business Objects Software Ltd. Converting structured data into database entries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314460A (zh) * 2010-07-07 2012-01-11 阿里巴巴集团控股有限公司 数据分析方法、系统及服务器
US20140236972A1 (en) * 2013-02-19 2014-08-21 Business Objects Software Ltd. Converting structured data into database entries
CN103646049A (zh) * 2013-11-26 2014-03-19 中国银行股份有限公司 自动生成数据报表的方法及系统
CN103778244A (zh) * 2014-02-11 2014-05-07 五八同城信息技术有限公司 一种基于用户行为日志的自动化报表分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657032A (zh) * 2017-09-28 2018-02-02 佛山市南方数据科学研究院 一种互联网大数据分析提取方法
CN108280126A (zh) * 2017-12-13 2018-07-13 浙江工商职业技术学院 一种大数据分析处理方法
CN109726284A (zh) * 2018-12-07 2019-05-07 成都品果科技有限公司 一种通用性强的数据分析方法

Also Published As

Publication number Publication date
CN105760492B (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN103593352B (zh) 一种海量数据清洗方法及装置
US8244046B2 (en) Character string updated degree evaluation program
Van Rysselberghe et al. Reconstruction of successful software evolution using clone detection
CN103294781B (zh) 一种用于处理页面数据的方法与设备
US7340475B2 (en) Evaluating dynamic expressions in a modeling application
CN105930523A (zh) 大数据背景下基于动态可配置规则的数据清洗框架
CN102521225A (zh) 增量数据抽取装置和增量数据抽取方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN105630941A (zh) 基于统计和网页结构的Web正文内容抽取方法
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及系统
CN106874491A (zh) 一种基于动态关联规则的设备故障信息挖掘方法
CN113626400A (zh) 基于日志树和解析树的日志事件提取方法及系统
CN105760492A (zh) 数据分析方法及装置
CN110347827B (zh) 面向异构文本运维数据的事件提取方法
CN106649329A (zh) 一种安全生产大数据挖掘系统
CN105122208A (zh) 源程序分析系统、源程序分析方法和记录有程序的非瞬时记录介质
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN103064966A (zh) 一种从单记录网页中抽取规律噪音的方法
CN105447148A (zh) 一种Cookie标识关联方法及装置
CN117290407A (zh) 基于日志的列车制动能力影响分析方法、系统及介质
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
CN115391519A (zh) 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质
CN111752729B (zh) 一种构建三层关联关系模型的方法及三层关系识别方法
CN101226523B (zh) 数据概况分析方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant