CN111782970A - 一种数据分析方法和装置 - Google Patents

一种数据分析方法和装置 Download PDF

Info

Publication number
CN111782970A
CN111782970A CN202010716779.2A CN202010716779A CN111782970A CN 111782970 A CN111782970 A CN 111782970A CN 202010716779 A CN202010716779 A CN 202010716779A CN 111782970 A CN111782970 A CN 111782970A
Authority
CN
China
Prior art keywords
data
bid
winning
preset
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010716779.2A
Other languages
English (en)
Other versions
CN111782970B (zh
Inventor
李道远
曾青军
黄昌金
邱靖
赖秋杰
李伯兴
夏雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Teligen Communication Technology Co ltd
Original Assignee
Guangzhou Teligen Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Teligen Communication Technology Co ltd filed Critical Guangzhou Teligen Communication Technology Co ltd
Priority to CN202010716779.2A priority Critical patent/CN111782970B/zh
Publication of CN111782970A publication Critical patent/CN111782970A/zh
Application granted granted Critical
Publication of CN111782970B publication Critical patent/CN111782970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据分析方法和装置,方法包括:S1、基于第一接入方式接入原始数据,根据预置抽取规则对原始数据进行抽取,得到业务数据;S2、根据可配式规整方案对业务数据进行规整处理,得到结构格式统一的第一数据;S3、当第一数据为非结构化数据时,读取非结构化数据,对读取后的非结构化数据进行过滤,得到内容性文件数据;S4、根据预置的匹配规则对结构化数据和内容性文件数据进行匹配,得到第一中标数据;S5、根据第一中标数据和原始数据,基于预置的扩充条件对第一中标数据进行扩充,得到扩充数据。解决了现有技术用于分析的数据来源单一并且数据分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。

Description

一种数据分析方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据分析方法和装置。
背景技术
在线社交网络话题是指在线社交网络平台上受到网民的关注程高、观点倾向性明确、观点认同度高且有影响力的话题,是网络舆情产生的萌芽。随着在线社交网络的迅速发展,网络舆情对人们的生活和工作方式产生了越来越大的影响,因此,对于网络舆情的研究有着十分重要的意义。
现有技术在对网络舆情的数据进行分析时,分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析。
发明内容
本申请实施例提供了一种数据分析方法和装置,用于解决现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
有鉴于此,本申请第一方面提供了一种数据分析方法,所述方法包括:
S1、基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,所述第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式;
S2、根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,所述第一数据包括:结构化数据、非结构化数据;
S3、当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据;
S4、根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据;
S5、根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述第一中标数据进行扩充,得到扩充数据。
可选地,所述基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,具体包括:
通过KAFKA平台接入所述原始数据,根据预置抽取规则对所述KAFKA平台的TOPIC数据进行抽取,得到所述业务数据;
通过FTP方式接入文件数据,对所述文件数据的预置目录进行轮询消费,得到第一文件数据,根据预置抽取规则对所述第一文件数据进行抽取,得到所述业务数据;
基于接口,通过资源配置的方式接入所述原始数据,根据预置抽取规则对所述原始数据进行抽取,得到所述业务数据。
可选地,所述根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,具体包括:
基于Oracle数据库配置所述业务数据,得到适配数据,通过Redis对所述适配数据进行映射,得到映射数据,对所述映射数据进行规整,得到结构格式统一的所述第一数据。
可选地,所述当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据,具体包括:
当所述第一数据为所述非结构化数据时,基于Hbase数据库,对所述非结构化数据进行实体存储,得到多实体数据;
根据批量抽取策略对所述多实体数据进行读取后,将所述多实体数据中的非内容性文件过滤,得到所述内容性文件数据。
可选地,所述根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据,具体包括:
当所述结构化数据和所述内容性文件数据为内容字段时,根据AC自动机优化匹配算法,基于关键字匹配规则对所述内容字段进行匹配,得到所述第一中标数据;
当所述结构化数据和所述内容性文件数据为核心内容字段时,基于目标匹配规则对所述核心内容字段进行匹配,得到所述第一中标数据;
当所述结构化数据和所述内容性文件数据为非所述内容字段或非所述核心内容字段时,定义匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到所述第一中标数据。
可选地,所述根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述中标数据进行扩充,得到扩充数据,具体包括:
根据所述第一中标数据对应的实体与所述原始数据的关联关系,基于预置的过滤条件对所述原始数据进行过滤,将过滤后的所述原始数据作为所述扩充数据;
基于预置的匹配规则,将所述第一中标数据对应的实体和与所述原始数据的实体依次进行匹配,得到所述第一中标数据对应的实体与所述原始数据的实体的关系,将所述关系作为所述扩充数据;
基于预置的搜索条件对所述原始数据的实体进行搜索,将搜索后的所述原始数据的实体作为扩充数据。
可选地,步骤S4之后还包括:
根据预置的正反方向优化方案对所述第一中标数据进行匹配,得到第二中标数据。
可选地,步骤S5之前还包括:
通过NLP深度学习技术对所述原始数据进行训练,得到敏感数据分类模型;
基于所述敏感数据分类模型对所述第一中标数据或所述第二中标数据进行分类。
可选地,所述步骤S4之后还包括:
基于预置的处理规则,对分类后的所述第一中标数据或所述第二中标数据进行处理,所述预置的处理规则包括:CKM分词抽取方式、内容MD5计算方式、价值字段补全方式、白名单过滤方式和敏感数据分析。
本申请第二方面提供一种数据分析装置,所述装置包括:
抽取单元,用于基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,所述第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式;
规整单元,用于根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,所述第一数据包括:结构化数据、非结构化数据;
过滤单元,用于当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据;
匹配单元,用于根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据;
扩充单元,用于根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述第一中标数据进行扩充,得到扩充数据。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供了一种数据分析方法,包括:S1、基于第一接入方式接入原始数据,根据预置抽取规则对原始数据进行抽取,得到业务数据,第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式;S2、根据可配式规整方案对业务数据进行规整处理,得到结构格式统一的第一数据,第一数据包括:结构化数据、非结构化数据;S3、当第一数据为非结构化数据时,读取非结构化数据,对读取后的非结构化数据进行过滤,得到内容性文件数据;S4、根据预置的匹配规则对结构化数据和内容性文件数据进行匹配,得到第一中标数据;S5、根据第一中标数据和原始数据,基于预置的扩充条件对第一中标数据进行扩充,得到扩充数据。
本申请中的数据分析方法,在接入原始数据时,首先提供了KAFKA消费、文件数据流和接口三种接入方式,KAFKA消费接入方式有着高吞吐量、存储稳定的特点,适用于大数据分析,而文件数据流接入方式能够通过FTP对多种类型的文件进行传输,即使在特殊系统中,也可以通过接口方式对数据进行接入,根据不同情况使用不同的接入方式对数据进行抽取,达到了多数据接入的效果,为后续对数据的深度分析提供了基础;接着通过可配式的规整方案对接入的数据进行规整处理,得到结构格式统一的数据,方便对数据的研究;由于规整处理后的数据包括结构化数据和非结构化数据,而在对数据进行匹配时通常为结构化数据匹配方式,因此需要对非结构化数据进行过滤处理;然后根据不同的数据分析需求,通过不同的预置匹配规则对数据进行匹配,得到第一中标数据;由于第一中标数据仅仅是对数据的实体进行固定的分析,因此需要根据中标数据以及原始数据对分析的数据进行扩充,使得可以根据业务需要灵活地对数据进行深度分析。解决了现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
附图说明
图1为本申请实施例提供的一种数据分析方法的一个流程示意图;
图2为本申请实施例提供的一种数据分析方法的另一个流程示意图;
图3为本申请实施例提供的一种数据分析装置的结构示意图。
具体实施方式
本申请实施例提供了一种数据分析方法和装置,解决了现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种数据分析方法的一个实施例,包括:
步骤101、基于第一接入方式接入原始数据,根据预置抽取规则对原始数据进行抽取,得到业务数据,第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式。
需要说明的是,原始数据也就是在线社交网络上的各种信息,根据分析的需要通过KAFKA消费方式、文件数据流方式和接口方式三种的任意一种接入方式接入原始数据;KAFKA消费方式有着高吞吐量、存储稳定的优点,文件数据流方式则可以接入文件类型的数据,如隔离网络之间的数据通过关闸传输时需要用到文件、部分专用接口使用的文件、自研的OCR引擎的图片话单,而在特殊的系统中则用到接口方式接入原始数据,如对ICE的推送。使得支持FLINK集群、STORM集群等大数据实时流组件、KAFKA接口、文件接口、ICE文本接口等,实现多种来源不同结构海量资源数据的接入和实时比对。接入原始数据后,根据预置抽取规则对原始数据进行抽取,得到业务数据用于后续对数据的分析。
可以理解的是,预置抽取规则为:本领域技术人员可以根据实际需要设置一些常用的数据抽取模板,例如模板1抽取字段A、B、C,模板2抽取字段D、G、E,这些抽取字段数据用于各种数据分析和查询统计,模板通俗理解为不同Excel表,提前设置好抽取字段信息,在此不做限定。
步骤102、根据可配式规整方案对业务数据进行规整处理,得到结构格式统一的第一数据,第一数据包括:结构化数据、非结构化数据。
由于业务数据的异构多样性,需要通过可配式规整方案对业务数据进行规整处理,使得处理后的业务数据的结构格式统一的第一数据,需要说明的是,非结构化数据主要是指在结构化数据中关联出来的实体文件数据,比如邮件话单中会包含有附件信息,而附件则是以文件这种非结构化数据的形式存在的。
步骤103、当第一数据为非结构化数据时,读取非结构化数据,对读取后的非结构化数据进行过滤,得到内容性文件数据。
在对非结构化数据进行匹配前,需要对非结构化数据中的非内容性文件进行过滤,得到内容性文件数据后再根据结构化数据的匹配方式对数据进行匹配。
步骤104、根据预置的匹配规则对结构化数据和内容性文件数据进行匹配,得到第一中标数据。
根据客户对分析数据的需求不同,通过不同的匹配规则对结构化数据和内容性文件数据进行第一次匹配,得到需要的数据,也就是第一中标数据。
步骤105、根据第一中标数据和原始数据,基于预置的扩充条件对第一中标数据进行扩充,得到扩充数据。
由于匹配的第一中标数据的实体单一,实体的扩展性较差,不能很好的支撑客户业务变化灵活设置多元的实体,所以需要通过对中标数据的二次分析,也就是对中标数据进行扩充,因此根据第一中标数据以及接入原始数据,根据客户的需求,通过预置的扩充条件对第一中标数据进行扩充,得到扩充数据,为客户提供对数据分析的多种方式。
本申请中实施例中的数据分析方法,在接入原始数据时,首先提供了KAFKA消费、文件数据流和接口三种接入方式,KAFKA消费接入方式有着高吞吐量、存储稳定的特点,适用于大数据分析,而文件数据流接入方式能够通过FTP对多种类型的文件进行传输,即使在特殊系统中,也可以通过接口方式对数据进行接入,根据不同情况使用不同的接入方式对数据进行抽取,达到了多数据接入的效果,为后续对数据的深度分析提供了基础;接着通过可配式的规整方案对接入的数据进行规整处理,得到结构格式统一的数据,方便对数据的研究;由于规整处理后的数据包括结构化数据和非结构化数据,而在对数据进行匹配时通常为结构化数据匹配方式,因此需要对非结构化数据进行过滤处理;然后根据不同的数据分析需求,通过不同的预置匹配规则对数据进行匹配,得到第一中标数据;由于第一中标数据仅仅是对数据的实体进行固定的分析,因此需要根据第一中标数据以及原始数据对分析的数据进行扩充,使得可以根据业务需要灵活地对数据进行深度分析。解决了现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
以上为本申请实施例提供的一种中数据分析方法的第一实施例,以下为本申请实施例提供的一种数据分析方法的第二实施例。
为了便于理解,请参阅图2,本申请提供的一种数据分析方法的另一个实施例,包括:
步骤201、通过KAFKA平台接入原始数据,根据预置抽取规则对KAFKA平台的TOPIC数据进行抽取,得到业务数据。
由于消费的KAFKA的方式,高吞吐、分布式的设计,能够通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于大数据量级别的消息存储也能够保持长时间的稳定性能,它的吞吐量能达到每秒数百万的消息。通过KAFKA平台接入原始数据,只需要根据预置抽取规则对KAFKA平台的TOPIC数据进行抽取,得到业务数据。
步骤202、通过FTP方式接入文件数据,对文件数据的预置目录进行轮询消费,得到第一文件数据,根据预置抽取规则对第一文件数据进行抽取,得到业务数据。
原始数据也可以通过FTP进行传文件的方式接入,比如隔离网络之间的数据通过关闸传输时需要用到文件的方式,部分专用接口也是使用文件的格式,自研的OCR引擎的图片话单输出也可能使用这种方式。在这种情况下,需要增加通用的文件解析模块去对指定目录进行轮询消费,之后再根据预置抽取规则对第一文件数据进行抽取,得到业务数据。
步骤203、基于接口,通过资源配置的方式接入原始数据,根据预置抽取规则对原始数据进行抽取,得到业务数据。
在特殊系统中,也可能通过接口方式,例如ICE等,进行原始数据推送,同样支持多种不同接口适配代码,通过资源配置的方式使用不同的接口对原始数据进行接入。
除了通过上述三种方式接入原始数据,还可以通过模块化的数据接入,达到多数据源的接入目的。
步骤204、基于Oracle数据库配置业务数据,得到适配数据,通过Redis对适配数据进行映射,得到映射数据,对映射数据进行规整,得到结构格式统一的第一数据。
由于抽取的业务数据异构多样性,需要对多种数据结构进行适配,本实施例采用可配式规整方案,针对字段偏移、数据长度限定、分割符设置、数据类型限定、元数据信息限定等通过Oracle数据库配置业务数据,得到适配数据,通过Redis对适配数据进行映射,得到映射数据,对映射数据进行规整,得到结构格式统一的第一数据。
步骤205、当第一数据为非结构化数据时,基于Hbase数据库,对非结构化数据进行实体存储,得到多实体数据;根据批量抽取策略对多实体数据进行读取后,将多实体数据中的非内容性文件过滤,得到内容性文件数据。
在对非结构化数据进行匹配前,需要对非结构化数据中的非内容性文件进行过滤,本实施例采用Hbase数据库,对非结构化数据进行实体存储得到多实体数据,根据结构化数据中定义的存储地址,通过使用批量抽取策略对多实体数据进行读取,读取后对非内容性文件进行过滤,得到内容性文件数据。
步骤206、当结构化数据和内容性文件数据为内容字段时,根据AC自动机优化匹配算法,基于关键字匹配规则对内容字段进行匹配,得到第一中标数据。
针对结构化数据和内容性文件数据的内容字段,本实施例采用关键字匹配规则,通过AC自动机优化匹配算法,基于关键字匹配规则对内容字段进行匹配,得到第一中标数据;关键字匹配规则如:简单表达式关键字组合。
步骤207、当结构化数据和内容性文件数据为核心内容字段时,基于目标匹配规则对核心内容字段进行匹配,得到第一中标数据。
需要说明的是,目标匹配规则包括:对虚拟账号、邮箱等目标进行精确的规则的匹配。
步骤208、当结构化数据和内容性文件数据为非内容字段或非核心内容字段时,定义匹配规则对结构化数据和内容性文件数据进行匹配,得到第一中标数据。
当结构化数据和内容性文件数据为其他数据时,本实施例可以定义不同的匹配或者过滤规则对数据进行规则匹配,得到第一中标数据。
步骤209、根据预置的正反方向优化方案对第一中标数据进行匹配,得到第二中标数据。
由于文博大精深,仅从关键字匹配的维度,会产生大量的误导数据。同时也会存在于匹配结果基数过大、情报精准度不高的问题。基于以上问题,本实施例采用正反方向优化方案对第一中标数据进行匹配得到第二中标数据。,正向通过增加话题关键字扩大情报的覆盖范围,且通过与关系来降低情报基数,同时从反向匹配非规则,去除白名单误导数据,从而达到降基数、精准挖掘。
本实施例除了提供上述的正反向优化方案对数据进行匹配的方式外,还可以是其他的匹配方式,如语义匹配规则:在传统的关键词匹配上,扩充短句加核心词模式匹配规则。采用TextSimilar算法对设定的任务短句与数据进行相似度匹配,阈值达到则匹配成功。针对短句与长句规则匹配的问题,还需要对长句进行分段,进行子句匹配。由于原算法在大数据量场景下性能不佳,且目前无更优算法支撑,通过采用核心词优先的方式先做第一层过滤,再进行相似文本计算,丰富规则匹配方式,补齐语义匹配短板。
步骤210、通过NLP深度学习技术对原始数据进行训练,得到敏感数据分类模型;基于敏感数据分类模型对第一中标数据或第二中标数据进行分类。
本实施例采用NLP深度学习技术对原始数据进行训练,得到敏感数据分类模型,需要说明的是,敏感数据分裂模型包括敏感内容分类模型和敏感意图分析模型,基于敏感数据分类模型对第一中标数据或第二中标数据进行分类。
需要说明的是,除了通过敏感数据分类模型对中标数据进行分类之外,还可以根据需要,通过给中标数据设置标签,如通过预设40+维度10w+关键词的方式对第一中标数据或第二中标数进行标签化处理,或者客户可以通过自定义添加或者上传文件的方式批量新增自定义领域关键词,将数据存储到Oracle的关键词基础表中,引擎通过Redis数据映射方式载入后,在内存中进行匹配计算,最终输出标签。
步骤211、基于预置的处理规则,对分类后的第一中标数据或第二中标数据进行处理,预置的处理规则包括:CKM分词抽取方式、内容MD5计算方式、价值字段补全方式、白名单过滤方式和敏感数据分析。
除了对中标的数据进行扩充处理外,本实施例还通过CKM分词抽取方式、内容MD5计算方式、价值字段补全方式、白名单过滤方式和敏感数据分析处理规则对分类后的第一中标数据或第二中标数据进行处理。
需要说明的是,CKM分词抽取方式为:通过对中标数据的MD5进行唯一标识计算,在溯源时无需比较大量的长文本,从而提高文本溯源的计算效率。内容MD5计算方式为:在业务中除了聚合相同的数据外,还需要对称谓、标识码进行替换的群发文本需要进行聚合后统计。通过使用分词技术抽取人名、标识码、地名等核心字段,从原句中去除后统计MD5行成唯一标识,聚合后实现业务层面的群发统计。内容MD5计算方式为:对价值字段进行补全,如ECGI基站实际地址的翻译、ECGI基站经纬度的翻译。针对客户设定的白名单、白内容进行相关的过滤(过滤后的结果不做资源入库操作)。针对中标的数据内容,配合已有收集的敏感APP的基础库,对APP打上分类标签。还有其他业务层面的标签也可以进行补全。
步骤212、根据第一中标数据对应的实体与原始数据的关联关系,基于预置的过滤条件对原始数据进行过滤,将过滤后的原始数据作为扩充数据。
需要说明的是,根据客户的业务需要,通过指定第一中标数据中对应的实体并且预设过滤条件,对原始数据中与这些实体有关联且符合过滤条件的数据进行过滤,将过滤后的原始数据作为扩充数据。
步骤213、基于预置的匹配规则,将第一中标数据对应的实体和与原始数据的实体依次进行匹配,得到第一中标数据对应的实体与原始数据的实体的关系,将关系作为扩充数据。
可以理解的是,若第一中标数据对应的实体A和原始数据中的实体B之间的关系负荷预置的匹配规则,那么当客户指定实体A和实体B之后,可以得到实体A和实体B之间存在的关系。
步骤214、基于预置的搜索条件对原始数据的实体进行搜索,将搜索后的原始数据的实体作为扩充数据。
除了上述对数据进行的一次匹配外,本实施例通过预置的搜索条件对原始数据进行多次匹配,根据客户的需求对原始数据的实体进行搜索,将搜索后的原始数据的实体作为扩充数据。
需要说明的是,本申请通过摘要方式、缩略图方式将得到的扩充数据或经预置的处理规则处理后的数据进行展现给客户;还可以通过在地图上展现中标的数据位置等,通过位置分析中标的数据的影响情况;还可以从时间和地区两个维度对中标数据在地图上进行宏观撒点。
本申请中实施例中的数据分析方法,在接入原始数据时,首先提供了KAFKA消费、文件数据流和接口三种接入方式,KAFKA消费接入方式有着高吞吐量、存储稳定的特点,适用于大数据分析,而文件数据流接入方式能够通过FTP对多种类型的文件进行传输,即使在特殊系统中,也可以通过接口方式对数据进行接入,根据不同情况使用不同的接入方式对数据进行抽取,达到了多数据接入的效果,为后续对数据的深度分析提供了基础;接着通过可配式的规整方案对接入的数据进行规整处理,得到结构格式统一的数据,方便对数据的研究;由于规整处理后的数据包括结构化数据和非结构化数据,而在对数据进行匹配时通常为结构化数据匹配方式,因此需要对非结构化数据进行过滤处理。然后根据不同的数据分析需求,通过不同的预置匹配规则对数据进行匹配,得到第一中标数据。
为了进一步对数据进行深度分析,还可以对第一中标数据进行进一步的匹配;为了方便客户对中标数据中的敏感词进行搜索分析等,通过敏感分类模型对中标数据进行分类。
由于中标数据仅仅是对数据的实体进行固定的分析,最后需要根据中标数据以及原始数据对分析的数据进行扩充;除了对中标数据进行扩充,还可以基于预置的规则对中标数据进行分析,使得可以根据业务需要灵活地对数据进行深度分析。解决了现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
以上为本申请实施例提供的一种中数据分析方法的第二实施例,以下为本申请实施例提供的一种数据分析装置的一个实施例。
为了便于理解,请参阅图3,本申请提供的一种数据分析装置的实施例,包括:
抽取单元301,用于基于第一接入方式接入原始数据,根据预置抽取规则对原始数据进行抽取,得到业务数据,第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式。
规整单元302,用于根据可配式规整方案对业务数据进行规整处理,得到结构格式统一的第一数据,第一数据包括:结构化数据、非结构化数据。
过滤单元303,用于当第一数据为非结构化数据时,读取非结构化数据,对读取后的非结构化数据进行过滤,得到内容性文件数据。
匹配单元304,用于根据预置的匹配规则对结构化数据和内容性文件数据进行匹配,得到第一中标数据。
扩充单元305,用于根据第一中标数据和原始数据,基于预置的扩充条件对第一中标数据进行扩充,得到扩充数据。
本申请中实施例中的数据分析装置,在接入原始数据时,首先提供了KAFKA消费、文件数据流和接口三种接入方式,KAFKA消费接入方式有着高吞吐量、存储稳定的特点,适用于大数据分析,而文件数据流接入方式能够通过FTP对多种类型的文件进行传输,即使在特殊系统中,也可以通过接口方式对数据进行接入,根据不同情况使用不同的接入方式对数据进行抽取,达到了多数据接入的效果,为后续对数据的深度分析提供了基础;接着通过可配式的规整方案对接入的数据进行规整处理,得到结构格式统一的数据,方便对数据的研究;由于规整处理后的数据包括结构化数据和非结构化数据,而在对数据进行匹配时通常为结构化数据匹配方式,因此需要对非结构化数据进行过滤处理;然后根据不同的数据分析需求,通过不同的预置匹配规则对数据进行匹配,得到第一中标数据;由于第一中标数据仅仅是对数据的实体进行固定的分析,因此需要根据中标数据以及原始数据对分析的数据进行扩充,使得可以根据业务需要灵活地对数据进行深度分析。解决了现有技术用于分析的数据来源单一并且分析的实体固定,导致不能根据用户的业务需求灵活地对数据进行深度分析的技术问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
S1、基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,所述第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式;
S2、根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,所述第一数据包括:结构化数据、非结构化数据;
S3、当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据;
S4、根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据;
S5、根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述第一中标数据进行扩充,得到扩充数据。
2.根据权利要求1所述的数据分析方法,其特征在于,所述基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,具体包括:
通过KAFKA平台接入所述原始数据,根据预置抽取规则对所述KAFKA平台的TOPIC数据进行抽取,得到所述业务数据;
通过FTP方式接入文件数据,对所述文件数据的预置目录进行轮询消费,得到第一文件数据,根据预置抽取规则对所述第一文件数据进行抽取,得到所述业务数据;
基于接口,通过资源配置的方式接入所述原始数据,根据预置抽取规则对所述原始数据进行抽取,得到所述业务数据。
3.根据权利要求1所述的数据分析方法,其特征在于,所述根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,具体包括:
基于Oracle数据库配置所述业务数据,得到适配数据,通过Redis对所述适配数据进行映射,得到映射数据,对所述映射数据进行规整,得到结构格式统一的所述第一数据。
4.根据权利要求1所述的数据分析方法,其特征在于,所述当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据,具体包括:
当所述第一数据为所述非结构化数据时,基于Hbase数据库,对所述非结构化数据进行实体存储,得到多实体数据;
根据批量抽取策略对所述多实体数据进行读取后,将所述多实体数据中的非内容性文件过滤,得到所述内容性文件数据。
5.根据权利要求1所述的数据分析方法,其特征在于,所述根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据,具体包括:
当所述结构化数据和所述内容性文件数据为内容字段时,根据AC自动机优化匹配算法,基于关键字匹配规则对所述内容字段进行匹配,得到所述第一中标数据;
当所述结构化数据和所述内容性文件数据为核心内容字段时,基于目标匹配规则对所述核心内容字段进行匹配,得到所述第一中标数据;
当所述结构化数据和所述内容性文件数据为非所述内容字段或非所述核心内容字段时,定义匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到所述第一中标数据。
6.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述中标数据进行扩充,得到扩充数据,具体包括:
根据所述第一中标数据对应的实体与所述原始数据的关联关系,基于预置的过滤条件对所述原始数据进行过滤,将过滤后的所述原始数据作为所述扩充数据;
基于预置的匹配规则,将所述第一中标数据对应的实体和与所述原始数据的实体依次进行匹配,得到所述第一中标数据对应的实体与所述原始数据的实体的关系,将所述关系作为所述扩充数据;
基于预置的搜索条件对所述原始数据的实体进行搜索,将搜索后的所述原始数据的实体作为扩充数据。
7.根据权利要求1所述的数据分析方法,其特征在于,步骤S4之后还包括:
根据预置的正反方向优化方案对所述第一中标数据进行匹配,得到第二中标数据。
8.根据权利要求7所述的数据分析方法,其特征在于,步骤S5之前还包括:
通过NLP深度学习技术对所述原始数据进行训练,得到敏感数据分类模型;
基于所述敏感数据分类模型对所述第一中标数据或所述第二中标数据进行分类。
9.根据权利要求8所述的数据分析方法,其特征在于,所述步骤S4之后还包括:
基于预置的处理规则,对分类后的所述第一中标数据或所述第二中标数据进行处理,所述预置的处理规则包括:CKM分词抽取方式、内容MD5计算方式、价值字段补全方式、白名单过滤方式和敏感数据分析。
10.一种数据分析装置,其特征在于,包括:
抽取单元,用于基于第一接入方式接入原始数据,根据预置抽取规则对所述原始数据进行抽取,得到业务数据,所述第一接入方式包括:KAFKA消费方式、文件数据流方式和接口方式;
规整单元,用于根据可配式规整方案对所述业务数据进行规整处理,得到结构格式统一的第一数据,所述第一数据包括:结构化数据、非结构化数据;
过滤单元,用于当所述第一数据为所述非结构化数据时,读取所述非结构化数据,对读取后的所述非结构化数据进行过滤,得到内容性文件数据;
匹配单元,用于根据预置的匹配规则对所述结构化数据和所述内容性文件数据进行匹配,得到第一中标数据;
扩充单元,用于根据所述第一中标数据和所述原始数据,基于预置的扩充条件对所述第一中标数据进行扩充,得到扩充数据。
CN202010716779.2A 2020-07-23 2020-07-23 一种数据分析方法和装置 Active CN111782970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010716779.2A CN111782970B (zh) 2020-07-23 2020-07-23 一种数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010716779.2A CN111782970B (zh) 2020-07-23 2020-07-23 一种数据分析方法和装置

Publications (2)

Publication Number Publication Date
CN111782970A true CN111782970A (zh) 2020-10-16
CN111782970B CN111782970B (zh) 2024-03-22

Family

ID=72764856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010716779.2A Active CN111782970B (zh) 2020-07-23 2020-07-23 一种数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN111782970B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377741A (zh) * 2021-05-28 2021-09-10 中国铁道科学研究院集团有限公司电子计算技术研究所 铁路工程设计元数据管理方法及装置
CN113672601A (zh) * 2021-07-22 2021-11-19 北京明略软件系统有限公司 一种流式数据补齐方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318340A (zh) * 2014-09-25 2015-01-28 中国科学院软件研究所 基于文本履历信息的信息可视化方法及智能可视分析系统
CN106155002A (zh) * 2015-04-17 2016-11-23 乐金电子研发中心(上海)有限公司 智能家居系统
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控系统及其方法
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储系统及数据存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318340A (zh) * 2014-09-25 2015-01-28 中国科学院软件研究所 基于文本履历信息的信息可视化方法及智能可视分析系统
CN106155002A (zh) * 2015-04-17 2016-11-23 乐金电子研发中心(上海)有限公司 智能家居系统
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控系统及其方法
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储系统及数据存储方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377741A (zh) * 2021-05-28 2021-09-10 中国铁道科学研究院集团有限公司电子计算技术研究所 铁路工程设计元数据管理方法及装置
CN113672601A (zh) * 2021-07-22 2021-11-19 北京明略软件系统有限公司 一种流式数据补齐方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111782970B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
WO2019153612A1 (zh) 问答数据处理方法、电子装置及存储介质
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
US10565233B2 (en) Suffix tree similarity measure for document clustering
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN105005594B (zh) 异常微博用户识别方法
WO2017097231A1 (zh) 话题处理方法及装置
CN109189959B (zh) 一种构建图像数据库的方法及装置
CN107291755B (zh) 一种终端推送方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102184256A (zh) 一种针对海量相似短文本的聚类方法和系统
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
US9772991B2 (en) Text extraction
CN113934941B (zh) 一种基于多维度信息的用户推荐系统及方法
CN110472057B (zh) 话题标签的生成方法及装置
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN111782970B (zh) 一种数据分析方法和装置
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN105512300B (zh) 信息过滤方法及系统
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN100419762C (zh) 适用于输入形式自由的无线短信匹配和搜索引擎的信息处理方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN108153785B (zh) 生成展示信息的方法和装置
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN109543049B (zh) 一种针对写作特点自动推送素材的方法及系统
CN106777395A (zh) 一种基于社区文本数据的话题发现系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant