CN110889632A

CN110889632A - 一种公司形象提升系统的数据监测分析系统

Info

Publication number: CN110889632A
Application number: CN201911183448.0A
Authority: CN
Inventors: 于灏; 宋健; 刘睿; 郑厚清; 陈睿欣; 谢清霞; 潘泓廷; 孙艺新; 傅弘亚; 贾德香; 刘威; 王玓; 王智敏; 刘素蔚; 高洪达; 陈�光; 柳占杰; 李心达; 王程; 崔维平
Original assignee: National Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Current assignee: National Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-17
Anticipated expiration: 2039-11-27
Also published as: CN110889632B

Abstract

本发明公开了一种公司形象提升系统的数据监测分析系统，包括用户数据服务与融合体系模块、社交媒体传播优化模块、多源海量社交媒体数据实时采集模块、异构社交媒体关键信息提取模块与支撑海量社交媒体数据监测处理分析的流计算技术模块，所述多源海量社交媒体数据实时采集模块包括微服务全局分布式数据协调模块、数据采集抓取服务模块、数据采集处理服务模块与数据持久化服务模块，所述微服务全局分布式数据协调模块。该公司形象提升系统的数据监测分析系统，能够融合公司客户服务数据和复杂社交网络数据，构建数据融合体系架构，具有数据分析处理更加高效可靠、应用领域广泛、实用价值较强、专家成本降低的优点。

Description

一种公司形象提升系统的数据监测分析系统

技术领域

本发明涉及监测分析系统领域，具体为一种公司形象提升系统的数据监测分析系统。

背景技术

现存社交媒体大数据由多源、信息密度低的异构网页文本为主体，在开展试点验证过程中，既有实时计算处理需求，也有离线大规模分析需求；既有半结构化的网页，也有非结构化的文档，对于客户潜在需求分析、情绪识别、社交媒体传播监测分析等不同数据处理、分析任务对数据的更新周期、访问时延、调用频次等也存在很大的差异，传统的规则抽取技术的召回率较低、健壮性不足，难以覆盖全面的结构化字段和关键指标。

传统的规则抽取技术的召回率较低、健壮性不足，难以覆盖全面的结构化字段和关键指标，第一、社交媒体内容以网页形式存在，包含大量需要进行分析、挖掘、计算的关键字段信息，例如微博的转发数、评论和帐号信息，微信公众号文章的阅读数等。第二、不同社交媒体的网页结构不同，指标也不尽相同，且经常处于变化中，仅仅利用规则抽取技术无法满足社交媒体的更新和变化。第三、无论是自然语言处理，还是包装器技术，往往针对一个特定的信息源、一个特定主题或者领域，每出现一个新的信息源就需要重新构造一套抽取程序，造成系统的可扩展性差。同时，目前各类规则抽取基于结构方式过于依赖网页结构，基于内容方式需要复杂的语言知识和自然语言处理技术。

但是现有的数据监测分析系统在使用时存在一定的弊端，其难以融合公司客户服务数据和复杂社交网络数据，构建数据融合体系架构，其数据分析处理效率较低、实用价值不够强、专家成本较高。

为此，提出一种公司形象提升系统的数据监测分析系统。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种公司形象提升系统的数据监测分析系统，能够融合公司客户服务数据和复杂社交网络数据，构建数据融合体系架构，具有数据分析处理更加高效可靠、应用领域广泛、实用价值较强、专家成本降低的优点。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种公司形象提升系统的数据监测分析系统，包括用户数据服务与融合体系模块、社交媒体传播优化模块、多源海量社交媒体数据实时采集模块、异构社交媒体关键信息提取模块与支撑海量社交媒体数据监测处理分析的流计算技术模块；

所述多源海量社交媒体数据实时采集模块包括微服务全局分布式数据协调模块、数据采集抓取服务模块、数据采集处理服务模块与数据持久化服务模块，所述微服务全局分布式数据协调模块，是指服务之间的图片共享通过FTP+Nginx静态资源的方式进行访问，文件共享通过nfs磁盘挂载的方式进行访问，通过微服务、独立化，对文件进行统一的管理和维护，进而实现对数据的协调式采集，搭建具备独立规则、携带关键数据特征的数据库，所述数据采集抓取服务模块是指对数据进行抓取、转换、加载，最终挖掘数据的潜在价值，并提供给用户解决方案或者决策参考，所述数据采集处理服务模块是指对数据进行分析和加工的技术过程，包括对各种原始数据的分析、整理、计算、编辑的加工和处理，所述数据持久化服务模块是指通过处理采集器获取的信息，清洗掉冗余数据和脏数据，统一存储格式后将数据持久化存储，其用于对采集处理完毕的数据进行分类存储，使数据持久有效，或不对数据存储内容进行任何格式处理，所有数据原封不动保存到文件中，或定义一套独立的格式规范，后续便于将数据从文件中解析；

所述异构社交媒体关键信息提取模块包括正则表达式抽取模块、自动序列标注模块、抽取模型构建模块与抽取模型部署应用模块，所述正则表达式抽取模块用于从大量的语料中匹配出少量但准确的抽取对象，并作为后续过程的导入，所述自动序列标注模块用于将采用正则表达式抽取模块获得的抽取结果，切割出一定比例，作为导入到“自动序列标注”方法的训练语料，替代“人工标注”过程，所述抽取模型构建模块，模型采用自动序列标注模块中的训练语料，结合开源的“自动序列标注”类算法，构建“抽取模型”，所述抽取模型部署应用模块采用抽取模型构建模块的结果，对自动序列标注模块切割出的、剩余的语料进行自动化抽取，并对抽取结果进行自动判断；

所述支撑海量社交媒体数据监测处理分析的流计算技术模块包括多源异构数据采集模块、分布式系统存储模块、流式大数据计算模块与交互数据分析处理模块，所述多源异构数据采集模块包括社交媒体大数据、公司内部客户服务数据及算法模型训练语料，通过互联网信息采集、数据库集成、文件系统集成、日志流数据集成及离线数据上传的方式进入系统，通过基于消息总线的全局数据调度，实现后续的存储、计算和应用，所述分布式系统存储模块用于对海量社交媒体原始数据和部分中间数据进行存储，对社交媒体的原始数据重新整理，所述流式大数据计算模块用于对海量数据的实时分析，所述交互数据分析处理模块在数据处理、分析及可视化展示层面，通过全文检索引擎、关系数据库、对象存储系统以及列族数据库，为社交媒体数据信息的全生命周期的不同类型数据提供最合适的数据结构及服务。

优选的，所述数据采集抓取服务模块包括系统日志采集模块、网络数据采集模块与数据库采集模块，所述系统日志采集模块用于收集日志数据提供离线和在线的实时分析使用，所述网络数据采集模块用于从网站上获取数据，将非结构化数据和半结构化数据的网页数据从网页中提取出来，并将其提取、清洗、转换成结构化的数据，然后存储为统一的本地文件数据，所述数据库采集模块用于与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分许系统进行系统分析。

优选的，所述数据采集处理服务模块包括数据清理模块、数据集成和数据转换模块与数据归约模块，所述数据清理模块用于是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值，所述数据集成和数据转换模块用于把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享和将数据从一种表示形式变为另一种表现形式的过程，所述数据归约模块是指在保持数据原貌的前提下，最大限度地精简数据量。

优选的，所述数据归约有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录。

优选的，所述抽取结果为，如果模型自动判断的准确性尚未达到业务要求，则继续编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入；如果模型自动判断的准确性已经达到业务要求，则停止该过程，并将该模型作为文本抽取最终模型部署应用。

优选的，所述分布式系统存储模块将通过互联网信息采集、数据库集成、文件系统集成、日志流数据集成及离线数据上传等方式进入系统的数据分门别类，以分布式格局，根据一定的规则，采用规则导向性原理存储数据。

优选的，所述流式大数据计算模块在计算层面，基于分布式计算的多模式计算中心可以满足异构社交媒体数据的清洗和转换需求，其中基于Spark Streaming构建基于流式大数据计算框架,同时构建基于Spark MLLib的统一机器学习框架。

优选的，所述交互数据分析处理模块中的关系数据库用于处理数据配置信息、数据量较小、更新频率较小的各类数据。

(三)有益效果

本发明提供了一种公司形象提升系统的数据监测分析系统，具备以下有益效果：

1.该公司形象提升系统的数据监测分析系统，构建涵盖社交媒体及企业内部客户服务数据的处理、存储、分析挖掘全过程且具有高度柔性支撑框架，即结合传统数据融合匹配技术和基于深度神经网络的融合匹配技术，实现异构多态数据的综合处理，提出一种基于人工智能技术路线、结合条件随机场序列标注与专家规则相结合的非结构化文本关键信息监测模型，构建用户需求预测模型以及社交网络风险预警和检测模型，最终形成面向公司业务的异构多态复杂网络建模、传播分析的统一计算分析框架，此框架实现了高适应性的文本关键字段抽取，相较于传统方法，具有数据分析处理更加高效可靠、应用领域广泛、实用价值较强、专家成本降低等优点，能够进一步提升社交媒体关键信息智能监测的准确性与效率；

2.该公司形象提升系统的数据监测分析系统，通过多源海量社交媒体数据实时采集模块、异构社交媒体关键信息提取模块与支撑海量社交媒体数据监测处理分析的流计算技术模块结合实现，构建综合的公司用户数据服务与融合体系模型、公司用户需求预测模型以及公司相关用户情绪判别模型，能够融合公司客户服务数据和复杂社交网络数据，构建数据融合体系架构，通过结合公司相关数据，构建公司用户需求预测模型以及公司相关用户情绪判别模型，为公司客服、公关以及舆情监测的应用提供支持。

附图说明

图1为本发明的整体结构框图；

图2为本发明的多源海量社交媒体数据实时采集模块的结构框图；

图3为本发明的异构社交媒体关键信息提取模块的结构框图；

图4为本发明的支撑海量社交媒体数据监测处理分析的流计算技术模块的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图4，本发明提供一种技术方案：一种公司形象提升系统的数据监测分析系统，如图1所示，包括用户数据服务与融合体系模块、社交媒体传播优化模块、多源海量社交媒体数据实时采集模块、异构社交媒体关键信息提取模块与支撑海量社交媒体数据监测处理分析的流计算技术模块；

如图2所示，所述多源海量社交媒体数据实时采集模块包括微服务全局分布式数据协调模块、数据采集抓取服务模块、数据采集处理服务模块与数据持久化服务模块，所述微服务全局分布式数据协调模块，是指服务之间的图片共享通过FTP+Nginx静态资源的方式进行访问，文件共享通过nfs磁盘挂载的方式进行访问，通过微服务、独立化，对文件进行统一的管理和维护，进而实现对数据的协调式采集，搭建具备独立规则、携带关键数据特征的数据库，所述数据采集抓取服务模块是指对数据进行抓取、转换、加载，最终挖掘数据的潜在价值，并提供给用户解决方案或者决策参考，所述数据采集处理服务模块是指对数据进行分析和加工的技术过程，包括对各种原始数据的分析、整理、计算、编辑的加工和处理，所述数据持久化服务模块是指通过处理采集器获取的信息，清洗掉冗余数据和脏数据，统一存储格式后将数据持久化存储，其用于对采集处理完毕的数据进行分类存储，使数据持久有效，或不对数据存储内容进行任何格式处理，所有数据原封不动保存到文件中，或定义一套独立的格式规范，后续便于将数据从文件中解析；

如图3所示，所述异构社交媒体关键信息提取模块包括正则表达式抽取模块、自动序列标注模块、抽取模型构建模块与抽取模型部署应用模块，所述正则表达式抽取模块用于从大量的语料中匹配出少量但准确的抽取对象，并作为后续过程的导入，所述自动序列标注模块用于将采用正则表达式抽取模块获得的抽取结果，切割出一定比例，作为导入到“自动序列标注”方法的训练语料，替代“人工标注”过程，所述抽取模型构建模块，模型采用自动序列标注模块中的训练语料，结合开源的“自动序列标注”类算法，构建“抽取模型”，所述抽取模型部署应用模块采用抽取模型构建模块的结果，对自动序列标注模块切割出的、剩余的语料进行自动化抽取，并对抽取结果进行自动判断；

如图4所示，所述支撑海量社交媒体数据监测处理分析的流计算技术模块包括多源异构数据采集模块、分布式系统存储模块、流式大数据计算模块与交互数据分析处理模块，所述多源异构数据采集模块包括社交媒体大数据、公司内部客户服务数据及算法模型训练语料，通过互联网信息采集、数据库集成、文件系统集成、日志流数据集成及离线数据上传的方式进入系统，通过基于消息总线的全局数据调度，实现后续的存储、计算和应用，所述分布式系统存储模块用于对海量社交媒体原始数据和部分中间数据进行存储，对社交媒体的原始数据重新整理，所述流式大数据计算模块用于对海量数据的实时分析，所述交互数据分析处理模块在数据处理、分析及可视化展示层面，通过全文检索引擎、关系数据库、对象存储系统以及列族数据库，为社交媒体数据信息的全生命周期的不同类型数据提供最合适的数据结构及服务。

所述数据采集抓取服务模块包括系统日志采集模块、网络数据采集模块与数据库采集模块，所述系统日志采集模块用于收集日志数据提供离线和在线的实时分析使用，所述网络数据采集模块用于从网站上获取数据，将非结构化数据和半结构化数据的网页数据从网页中提取出来，并将其提取、清洗、转换成结构化的数据，然后存储为统一的本地文件数据，所述数据库采集模块用于与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分许系统进行系统分析；所述数据采集处理服务模块包括数据清理模块、数据集成和数据转换模块与数据归约模块，所述数据清理模块用于是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值，所述数据集成和数据转换模块用于把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享和将数据从一种表示形式变为另一种表现形式的过程，所述数据归约模块是指在保持数据原貌的前提下，最大限度地精简数据量；所述数据归约有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录；所述抽取结果为，如果模型自动判断的准确性尚未达到业务要求，则继续编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入；如果模型自动判断的准确性已经达到业务要求，则停止该过程，并将该模型作为文本抽取最终模型部署应用；所述分布式系统存储模块将通过互联网信息采集、数据库集成、文件系统集成、日志流数据集成及离线数据上传等方式进入系统的数据分门别类，以分布式格局，根据一定的规则，采用规则导向性原理存储数据；所述流式大数据计算模块在计算层面，基于分布式计算的多模式计算中心可以满足异构社交媒体数据的清洗和转换需求，其中基于Spark Streaming构建基于流式大数据计算框架,同时构建基于Spark MLLib的统一机器学习框架；所述交互数据分析处理模块中的关系数据库用于处理数据配置信息、数据量较小、更新频率较小的各类数据。

综上所述，该公司形象提升系统的数据监测分析系统，首先通过应用微服务全局分布式数据模块，对文件进行统一的管理和维护，进而实现对数据的协调式采集，既能降低服务成本，又能搭建具备独立规则、携带关键数据特征的数据库，通过对公司的业务平台产生的大量日志信息进行日志采集、收集，然后进行数据分析，挖掘公司业务平台日志数据中的潜在价值，为公司决策和公司后台服务器平台性能评估提高可靠的数据保证，常用的开源日志收集系统有Flume、Scribe，通过网络爬虫和一些网站平台提供的公共API等方式从网站上获取数据，将非结构化数据和半结构化数据的网页数据从网页中提取出来，并将其提取、清洗、转换成结构化的数据，然后存储为统一的本地文件数据，目前常用的网页爬虫系统有Apache Nutch框架，Apache Nutch是一个高度可扩展和可伸缩性的分布式爬虫框架，Apache通过分布式抓取网页数据，并且由Hadoop支持，通过提交MapReduce任务来抓取网页数据，并可以将网页数据存储在HDFS分布式文件系统中，Nutch可以进行分布式多任务进行爬取数据，存储和索引，由于多个机器并行做爬取任务，Nutch利用多个机器充分利用机器的计算资源和存储能力，提高系统爬取数据能力，公司、企业会使用传统的关系型数据库MySQL来存储数据，公司、企业产生的业务数据，以数据库一行记录形式被直接写入到数据库中，通过数据库采集模块直接与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分许系统进行系统分析，通过数据采集处理服务模块对各种原始数据的分析、整理、计算、编辑等的加工和处理，数据采集处理服务模块系统地整理和存储数据，减少冗余，充分利用数据库技术进行数据管理和处理，提高数据的质量，有助于提高后续学习过程的精度和性能，即通过数据采集处理服务模块中的数据清理模块发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值，能够有效地过滤掉不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉或由业务单位修正之后再进行抽取，不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类，再通过数据集成和数据转换模块，把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享，以及将数据从一种表示形式变为另一种表现形式，并通过属性选择和数据采样两个数据归约的途径，分别针对原始数据集中的属性和记录，能够在尽可能保持数据原貌的前提下，最大限度地精简数据量，再利用数据持久化服务模块对采集处理完毕的数据进行分类存储，使数据持久有效，或不对数据存储内容进行任何格式处理，所有数据原封不动保存到文件中，或定义一套独立的格式规范，通过异构社交媒体关键信息提取模块从大量的语料中匹配出少量但准确的抽取对象，最后构建满足社交媒体大数据全生命周期的存储、流转及计算的完整体系。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”，该文中出现的电器元件均与外界的主控器及220V市电电连接，并且主控器可为计算机等起到控制的常规已知设备。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种公司形象提升系统的数据监测分析系统，其特征在于：包括用户数据服务与融合体系模块、社交媒体传播优化模块、多源海量社交媒体数据实时采集模块、异构社交媒体关键信息提取模块与支撑海量社交媒体数据监测处理分析的流计算技术模块；

2.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述数据采集抓取服务模块包括系统日志采集模块、网络数据采集模块与数据库采集模块，所述系统日志采集模块用于收集日志数据提供离线和在线的实时分析使用，所述网络数据采集模块用于从网站上获取数据，将非结构化数据和半结构化数据的网页数据从网页中提取出来，并将其提取、清洗、转换成结构化的数据，然后存储为统一的本地文件数据，所述数据库采集模块用于与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分许系统进行系统分析。

3.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述数据采集处理服务模块包括数据清理模块、数据集成和数据转换模块与数据归约模块，所述数据清理模块用于是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值，所述数据集成和数据转换模块用于把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享和将数据从一种表示形式变为另一种表现形式的过程，所述数据归约模块是指在保持数据原貌的前提下，最大限度地精简数据量。

4.根据权利要求3所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述数据归约有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录。

5.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述抽取结果为，如果模型自动判断的准确性尚未达到业务要求，则继续编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入；如果模型自动判断的准确性已经达到业务要求，则停止该过程，并将该模型作为文本抽取最终模型部署应用。

6.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述分布式系统存储模块将通过互联网信息采集、数据库集成、文件系统集成、日志流数据集成及离线数据上传等方式进入系统的数据分门别类，以分布式格局，根据一定的规则，采用规则导向性原理存储数据。

7.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述流式大数据计算模块在计算层面，基于分布式计算的多模式计算中心可以满足异构社交媒体数据的清洗和转换需求，其中基于Spark Streaming构建基于流式大数据计算框架,同时构建基于Spark MLLib的统一机器学习框架。

8.根据权利要求1所述的一种公司形象提升系统的数据监测分析系统，其特征在于：所述交互数据分析处理模块中的关系数据库用于处理数据配置信息、数据量较小、更新频率较小的各类数据。