CN116894152A

CN116894152A - 一种多源数据调研与实时分析方法

Info

Publication number: CN116894152A
Application number: CN202311162014.9A
Authority: CN
Inventors: 邱发科; 刘银霞; 王义同; 王龙磊
Original assignee: Shandong Tanghe Intelligent Technology Co ltd
Current assignee: Shandong Tanghe Intelligent Technology Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-10-17
Anticipated expiration: 2043-09-11
Also published as: CN116894152B

Abstract

本发明涉及多源数据分析技术领域，具体涉及一种多源数据调研与实时分析方法，包括以下步骤：通过数据采集模块从多个数据源获取原始数据；利用数据预处理模块对原始数据进行清洗和标准化；通过异构数据映射与转换模块，对多源异构数据进行结构和语义层面的统一；通过数据集成模块将统一后的数据集成为统一数据模型；通过自适应权重分配模块，对来自不同数据源的数据在统一数据模型中进行权重分配；通过实时分析模块在所述统一数据模型上应用数据分析算法以生成分析结果；将所述分析结果输出至输出模块。本发明，有效解决多源异构数据带来的集成和分析挑战，消除信息孤岛和数据孤立的问题，同时保证了数据在结构和语义层面的一致性。

Description

一种多源数据调研与实时分析方法

技术领域

本发明涉及多源数据分析技术领域，尤其涉及一种多源数据调研与实时分析方法。

背景技术

随着数据量和复杂性的不断增长，现代企业和研究机构对多源数据的调研和实时分析需求日益旺盛。多源数据涉及来自不同数据源、格式和类型的信息，包括但不限于数据库、日志文件、传感器数据、社交媒体内容等，然而，如何有效地集成、管理和分析这些多源数据是一个重要但挑战性极大的任务。

当前的数据调研和分析方法大多针对单一或结构相似的数据源。当涉及多源或异构数据时，现有方法通常需要大量的手动预处理工作，如数据清洗、数据转换和标准化，以便进行后续分析，这样的方法不仅低效，而且容易导致信息损失或误解。

针对多源异构数据的融合和分析，现有技术往往缺乏一个统一、自适应的解决方案，特别是对于权重分配、数据模型选择和实时分析等方面，缺乏有效的自动化方法，此外，如何处理与集成不同数据源之间信任度和可靠性也是一个未解决的问题。

再者，现有技术大多缺乏有效的实时分析能力，通常的分析模块需要等待完整的数据集合成后，才能进行批量分析，这往往无法满足需求高、响应时间短的现实场景。

综上所述，现有的多源数据调研和分析方法存在诸多不足，急需一个综合性、高效的解决方案来改善这一现状。

发明内容

基于上述目的，本发明提供了一种多源数据调研与实时分析方法。

一种多源数据调研与实时分析方法，其特征在于，包括以下步骤：

S1：通过数据采集模块从多个数据源获取原始数据；

S2：利用数据预处理模块对原始数据进行清洗和标准化；

S3：通过异构数据映射与转换模块，对多源异构数据进行结构和语义层面的统一，使其能够被集成到统一数据模型中；

S4：通过数据集成模块将清洗后、标准化后和结构及语义统一后的数据集成为统一数据模型；

S5：通过自适应权重分配模块，对来自不同数据源的数据在统一数据模型中进行权重分配，以便在后续分析中更准确地反映不同数据源的贡献和重要性；

S6：通过实时分析模块在所述统一数据模型上应用数据分析算法以生成分析结果；

S7：将所述分析结果输出。

进一步的，所述S1中的多个数据源包括社交媒体平台、传感器、数据库和文件系统的数据源，所述数据采集模块的采集方式包括：

S11：通过网络接口或API从远程数据源获取数据，远程数据源包括社交媒体平台、公开数据库以及基于互联网的数据资源；

S12：通过直接连接或者数据导入从本地数据源获取数据，本地数据源包括文件系统、内部数据库；

S13：通过传感器接口从物联网设备或传感器获取实时数据；

S14：通过网页爬虫从非结构化数据源，包括新闻文章、PDF文件或网页内容获取数据；

S15：使用时间戳同步机制确保各个数据源获取数据时间一致。

进一步的，所述数据采集模块包括数据源管理子模块，数据源管理子模块用于：

维护数据源目录，记录各数据源的类型、位置、可用性以及与数据分析目标的相关性；

动态添加或移除数据源，以适应不同的数据调研和分析需求；

实施权限管理和数据安全措施，确保仅从授权和可靠的数据源获取数据。

进一步的，所述S2中的数据预处理模块包括：

S21：数据质量评估，通过统计分析和数据可视化技术对原始数据进行初步评估，以识别潜在的错误、异常值和缺失值；

异常值检测使用Z-score计算来检测异常值：

；

其中：是数据点，是平均值，是标准差，则为异常值；

S22：数据清洗，应用数据清洗算法消除错误和异常值，填补缺失值，以及识别和剔除重复记录；

对于数值型数据，使用均值、中位数或模式来填补缺失值：

；

S23：数据标准化，对各种数据类型进行格式和单位标准化；

Min-Max标准化：；

Z-score标准化：；

S24：数据编码，对非数值型数据应用编码方法以便于后续的数据处理和分析；

数据编码基于独热编码：将类别型变量转换为一个长度为的二进制向量其中为该变量的类别数；

S25：数据集成准备：为了便于后续的数据集成和异构数据映射与转换，生成元数据标签和数据模式描述，包括字段名称、数据类型和数据来源。

进一步的，所述S3中的异构数据映射与转换模块具体包括：

S31：结构识别，通过解析元数据和数据模式描述，识别来自不同数据源的数据结构；

S32：语义对齐，利用预定义语义映射规则，对不同数据源中具有相同或相似含义的字段进行语义对齐；

S33：数据模式转换，应用数据模式转换算法，将不同结构的数据转换为统一的数据模型，模型表示：

其中：是原始数据，是统一的数据；

S34：语义标准化，使用语义规则和知识图谱技术，将不同源的数据的语义标签和属性值进行统一；

S35：数据质量保证，在结构和语义转换过程中，使用质量检测算法进行实时质量检测，以保证转换后的数据的准确性和一致性，模型表示：

其中：是统一数据的质量得分，是各项质量指标，是各项质量指标的权重。

进一步的，所述S31中的结构识别具体包括：

S311：元数据抽取，从各数据源的头文件、数据库模式或API响应中抽取元数据信息，包括字段名称、数据类型、单位和约束；

S312：模式对比，对抽取的元数据进行解析和比对，生成数据结构映射表，用于识别和比对来自不同数据源的相似或相同字段；

S313：数据源标识，对每个识别出的字段或属性，附加源数据信息，以便于后续的数据集成和分析；

所述S32中的预定义语义映射规则具体包括：

S321：规则编写，使用自然语言处理技术，编写一组预定义的语义映射规则；

S322：规则验证，通过与现有数据源进行匹配和测试，验证预定义语义映射规则的准确性和有效性；

S323：规则存储，将验证后的预定义语义映射规则存储于可访问的规则库中，以供后续步骤按需调用；

所述S34具体包括：

S341：语义标签索引，利用内嵌的知识图谱，为每一种数据源中出现的语义标签或属性值创建一个唯一的索引标识；

S342：语义规则应用，使用一组预定义的语义规则，对不同源的数据进行标签和属性值的统一；

S343：知识图谱映射，通过知识图谱中的关系和实体，对不同源的数据中的语义标签和属性值进行高级别的统一；

S344：验证与更新，通过与现有数据源进行匹配和测试，验证语义标准化的准确性和有效性，并根据需要更新知识图谱和语义规则。

进一步的，所述S4具体包括：

S41：数据模型选择，根据目标应用和分析需求，选择统一数据模型，统一数据模型包括关系型、文档型或图数据模型；

S42：数据模型映射，根据生成的数据结构映射表和预定义的语义映射规则，将各源数据映射至统一数据模型中；

S43：数据合并，对多个数据源中具有相同或相似标签和属性的数据进行合并，以消除重复和冗余。

进一步的，所述S5具体包括：

S51：数据源评估，根据各数据源的可靠性、准确性和完整性进行评估，生成一个数据源信任度指标；

S52：数据项评级，对每个数据项基于其在数据源中的重要性、频率和相关性进行评级，生成数据项权重；

S53：权重分配算法，利用自适应算法，结合数据源信任度指标和数据项权重，为每个数据项分配一个综合权重值；

S54：权重更新，随着新数据的加入和旧数据的更新，动态地调整数据项的权重，以反映最新的数据品质和重要性；

S55：权重应用，在后续的数据分析和查询中，使用分配的权重值来优先考虑权重高的数据项，提高数据分析的准确性和可靠性。

进一步的，所述S6具体包括：

S61：数据筛选，根据预定的查询条件或用户输入，筛选出统一数据模型中的目标数据子集；

S62：特征提取，从筛选出的数据子集中提取有代表性的特征；

S63：权重应用，根据自适应权重分配，为每个数据项和特征应用权重，以确保分析结果的准确性和可靠性；

S64：数据分析算法应用，基于聚类分析，应用于加权后的数据子集，算法表示为：

其中：

：分析结果；

：筛选并提取特征后的数据；

：数据项和特征的权重；

：算法参数。

进一步的，所述S7具体包括：

S71：结果展示，将分析结果以图形、表格或文本形式展示给用户；

S72：结果反馈，允许用户为分析结果提供反馈。

本发明的有益效果：

本发明，自适应权重分配模块解决了多源数据权重不准确的问题，提高了分析结果的准确性和可靠性。

本发明，解决异构问题: 通过专门的异构数据映射与转换模块，本发明能有效解决多源异构数据带来的集成和分析挑战。这消除了信息孤岛和数据孤立的问题，同时保证了数据在结构和语义层面的一致性。

本发明，通过实时分析模块，能在统一数据模型上进行快速、精准的数据分析，支持多种数据模型，包括关系型、文档型或图数据模型，为不同类型和结构的数据提供了统一的分析平台。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的分析方法示意图；

图2为本发明实施例的异构数据映射与转换模块示意图；

图3为本发明实施例的自适应权重分配模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1-图3所示，一种多源数据调研与实时分析方法，该方法在计算环境中执行，该计算环境具有至少一个处理单元和至少一个数据存储单元，其特征在于，包括以下步骤：

S1：通过数据采集模块从多个数据源获取原始数据；

S2：利用数据预处理模块对原始数据进行清洗和标准化；

S3：通过异构数据映射与转换模块，对多源异构数据进行结构和语义层面的统一，使其能够被集成到统一数据模型中，该模块使用一种或多种自然语言处理和机器学习算法来识别数据中的结构和语义异构性，并生成转换规则和映射关系；

S5：通过自适应权重分配模块，对来自不同数据源的数据在统一数据模型中进行权重分配，以便在后续分析中更准确地反映不同数据源的贡献和重要性，该自适应权重分配模块使用一种基于数据源可靠性、数据更新频率和数据与目标关联性的综合评价体系来动态地分配权重；

S6：通过实时分析模块在统一数据模型上应用数据分析算法以生成分析结果；

S7：将分析结果输出；

新增的异构数据映射与转换模块明确解决了多源异构数据的问题，包括结构和语义异构性，该模块通过识别和映射不同数据源的结构和语义，解决了信息孤岛和数据孤立问题，从而实现了真正的数据集成和分析。

S1中的多个数据源包括社交媒体平台、传感器、数据库和文件系统的数据源，数据采集模块的采集方式包括：

S11：通过网络接口或API（应用程序编程接口）从远程数据源获取数据，远程数据源包括社交媒体平台、公开数据库以及基于互联网的数据资源；

S13：通过传感器接口从物联网设备或传感器获取实时数据；

数据采集模块包括数据源管理子模块，数据源管理子模块用于：

实施权限管理和数据安全措施，确保仅从授权和可靠的数据源获取数据；

通过管理机制，该数据采集模块能够有效地从多个不同类型的数据源获取原始数据，并为后续的数据预处理、数据集成和分析工作提供高质量和时间一致的输入数据。

S2中的数据预处理模块包括：

异常值检测使用Z-score计算来检测异常值：

其中：是数据点，是平均值，是标准差，则为异常值；

对于数值型数据，使用均值、中位数或模式来填补缺失值：

；

S23：数据标准化，对各种数据类型（例如，数值、类别、时间戳）进行格式和单位标准化；

Min-Max标准化：；

Z-score标准化：；

S24：数据编码，对非数值型数据（例如，文本或类别数据）应用编码方法以便于后续的数据处理和分析；

S3中的异构数据映射与转换模块具体包括：

S31：结构识别，通过解析元数据和数据模式描述，识别来自不同数据源的数据结构，例如字段名称、数据类型和数据长度；

其中：是原始数据，是统一的数据；

S34：语义标准化，使用语义规则和知识图谱技术，将不同源的数据的语义标签和属性值进行统一，例如，将所有“手机”、“移动电话”和“移动设备”标签统一为“移动电话”，将所有“显示器”、“显示屏”、“屏幕”和“操作屏”标签统一为“显示器”；

S31中的结构识别具体包括：

原理：该子模块运用解析算法和模式匹配技术，如正则表达式或自然语言处理（NLP）技术，以自动化地从各个数据源中抽取和解析元数据和数据模式。通过构建一个综合的元数据库和数据模式映射表，该子模块能够有效地识别来自不同数据源的数据结构，为后续的数据集成、映射和分析提供必要的结构信息；

S32中的预定义语义映射规则具体包括：

S321：规则编写，使用自然语言处理技术，编写一组预定义的语义映射规则，该规则通常以“如果-那么”形式表示，如“如果字段名称包含‘电话’，那么映射为‘联系方式’”；

原理：该预定义语义映射规则应用机器学习算法和自然语言处理技术，对领域专家编写的原始规则进行解析和优化。这些规则通常会被编码为一种高级语言或数据结构（如JSON或XML），以方便后续的自动处理和匹配，通过这一预定义语义映射规则子模块，不仅能确保从不同数据源整合来的数据在语义层面上具有一致性，而且还可以在一定程度上减少手动标注和数据清理的工作量，提高数据集成和分析的效率和准确性；

S34具体包括：

S343：知识图谱映射，通过知识图谱中的关系和实体，对不同源的数据中的语义标签和属性值进行高级别的统一，例如，将与“移动电话”有直接或间接关系的其他标签或属性也进行相应的统一；

S344：验证与更新，通过与现有数据源进行匹配和测试，验证语义标准化的准确性和有效性，并根据需要更新知识图谱和语义规则；

原理：该语义标准化采用自然语言处理和知识图谱技术，对数据中的语义标签和属性值进行解析和标准化，使用预定义的语义规则和知识图谱作为参考，以确保从多个数据源整合来的数据在语义层面上达到一致性，通过这一语义标准化子模块，可以解决不同数据源之间由于使用不同标签和属性导致的数据不一致问题，从而提高整体数据质量和数据集成的准确性。

S4具体包括：

S41：数据模型选择，根据目标应用和分析需求，选择统一数据模型，统一数据模型包括关系型、文档型或图数据模型，其中，

关系型部分：用于存储结构化数据，包括多个表格，每个表格设有一组预定义的列，并使用主键和外键之间的关系确保数据之间的一致性和完整性；

文档型部分：用于存储半结构化数据，文档均包含一组动态定义的键值对，允许数据以嵌套的层次结构进行存储；

图数据部分：用于存储和表示数据之间的复杂关系，包括多个节点和边，其中每个节点代表一个实体，每条边代表两个实体之间的关系；

S5具体包括：

数据源评估的信任度指标计算：

信任度的计算模型可表示为：

其中：

：数据源的信任度；

：数据源的可靠性；

：数据源的准确性；

：数据源的完整性；

：权重因子，满足；

数据项评级的权重：

数据项权重可以通过以下方式进行计算：

其中：

：数据项的权重；

：数据源的信任度；

：数据项在数据源中的频率或重要性；

：数据源的数量；

自适应权重分配算法：

综合权重的计算公式如下：

其中：

：数据项的综合权重

：所有涉及数据项的数据源的平均信任度

：数据项的权重

：平衡因子，

这些算法和数学模型为前述中涉及的数据源评估、数据项评级和自适应权重分配提供了具体的计算方法，从而确保了系统的可靠性和准确性；

S6具体包括：

其中：

：分析结果；

：筛选并提取特征后的数据；

：数据项和特征的权重；

：算法参数。

S7具体包括：

S71：结果展示，将分析结果以图形、表格或文本形式展示给用户，包括但不限于热点图、趋势图、关联图等；

S72：结果反馈，允许用户为分析结果提供反馈，包括确认、拒绝或调整分析结果，基于用户的反馈，实时调整算法参数或数据筛选条件，优化后续的分析过程。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源数据调研与实时分析方法，其特征在于，包括以下步骤：

S1：通过数据采集模块从多个数据源获取原始数据；

S2：利用数据预处理模块对原始数据进行清洗和标准化；

S5：通过自适应权重分配模块，对来自不同数据源的数据在统一数据模型中进行权重分配；

S7：将所述分析结果输出。

2.根据权利要求1所述的一种多源数据调研与实时分析方法，其特征在于，所述S1中的多个数据源包括社交媒体平台、传感器、数据库和文件系统的数据源，所述数据采集模块的采集方式包括：

S13：通过传感器接口从物联网设备或传感器获取实时数据；

3.根据权利要求2所述的一种多源数据调研与实时分析方法，其特征在于，所述数据采集模块包括数据源管理子模块，数据源管理子模块用于：

4.根据权利要求3所述的一种多源数据调研与实时分析方法，其特征在于，所述S2中的数据预处理模块包括：

异常值检测使用Z-score计算来检测异常值：

；

其中：是数据点，/>是平均值，/>是标准差，/>则为异常值；

对于数值型数据，使用均值、中位数或模式来填补缺失值：

；

S23：数据标准化，对各种数据类型进行格式和单位标准化；

Min-Max标准化：；

Z-score标准化：；

数据编码基于独热编码：将类别型变量转换为一个长度为/>的二进制向量其中/>为该变量的类别数；

S25：数据集成准备：生成元数据标签和数据模式描述，包括字段名称、数据类型和数据来源。

5.根据权利要求4所述的一种多源数据调研与实时分析方法，其特征在于，所述S3中的异构数据映射与转换模块具体包括：

；

其中：是原始数据，/>是统一的数据；

；

其中：是统一数据的质量得分；

是各项质量指标；

是各项质量指标的权重。

6.根据权利要求5所述的一种多源数据调研与实时分析方法，其特征在于，所述S31中的结构识别具体包括：

所述S32中的预定义语义映射规则具体包括：

所述S34具体包括：

S343：知识图谱映射，通过知识图谱中的关系和实体，对不同源的数据中的语义标签和属性值进行统一；

7.根据权利要求6所述的一种多源数据调研与实时分析方法，其特征在于，所述S4具体包括：

8.根据权利要求7所述的一种多源数据调研与实时分析方法，其特征在于，所述S5具体包括：

S51：数据源评估，根据各数据源的可靠性、准确性和完整性进行评估，生成数据源信任度指标；

9.根据权利要求8所述的一种多源数据调研与实时分析方法，其特征在于，所述S6具体包括：

S63：权重应用，根据自适应权重分配，为每个数据项和特征应用权重；

；

其中：

：分析结果；

：筛选并提取特征后的数据；

：数据项和特征的权重；

：算法参数。

10.根据权利要求9所述的一种多源数据调研与实时分析方法，其特征在于，所述S7具体包括：

S72：结果反馈，允许用户为分析结果提供反馈。