CN117708746A

CN117708746A - 一种基于多模态数据融合的风险预测方法

Info

Publication number: CN117708746A
Application number: CN202410155105.8A
Authority: CN
Inventors: 张煇; 杨勇; 李龙
Original assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Current assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-03-15
Anticipated expiration: 2044-02-04
Also published as: CN117708746B

Abstract

本申请公开了一种基于多模态数据融合的风险预测方法，涉及大数据处理技术领域，包括：分别采集文本数据、图像数据和音频数据并进行包含时空校准的预处理；分别提取文本语义特征、图像特征和音频特征；根据提取的特征，分别构建基于自然语言处理的第一预测模型；基于计算机视觉的第二预测模型；基于语音分析的第三预测模型；基于深度学习框架，构建风险预测模型；其中，在第一预测模型、第二预测模型和第三预测模型时，通过机器学习识别训练数据中的时空异常点，标记并移除时空异常点。针对现有技术中存在的多源异构数据融合中时空异常点引起的预测精度低的问题，本申请通过构建知识图谱与时空规则进行异常点检测与过滤，提高了模型的预测精度。

Description

一种基于多模态数据融合的风险预测方法

技术领域

本申请涉及大数据处理技术领域，特别涉及一种基于多模态数据融合的风险预测方法。

背景技术

随着互联网、移动通信等技术的发展，人类社会正在产生和积累大量的多模态数据，包括文本、图像、音频等。这些海量、多样、杂乱的数据中潜藏了丰富的知识和模式，能够支持许多智能分析任务。与此同时，不同模态的数据存在异构性，如何有效地处理多源异构数据成为一个关键技术难题。

在多模态分析与挖掘技术方面，当前主要采用两种策略。一种是单独对不同模态数据进行分析，忽略了数据之间的潜在关联；另一种是直接融合不同模态数据的特征表达，存在数据间时间和空间关联失真的问题。

在相关技术中，比如中国专利文献CN110851488A中提供了一种基于多源多模态数据融合分析处理方法，通过接口服务采集、物联网感知读取、数据库同步、文件同步、数据爬取等方式进行数据采集，针对采集到的这些结构化数据库数据、半结构化网络数据以及非结构化文本、视频等海量数据中存在的数据缺失、时空数据异常、数据不一致等问题，建立多种数据清洗模型，对多模态数据进行处理；多源多模态数据融合分析模块构建了常用的数据融合常见算法的算法库，能够支持对文本数据分析和图像数据分析，以及对来自多源的结构化数据和非结构化数据进行融合分析。但是该方案中，时空数据异常涉及到多个维度，这种多维度的异常处理，导致模型预测精度下降。

发明内容

1.要解决的技术问题

针对现有技术中存在的多源异构数据融合中时空异常点引起的预测精度低的问题，本申请提供了一种基于多模态数据融合的风险预测方法，通过构建知识图谱与时空规则进行异常点检测与过滤，提高了模型的预测精度。

2.技术方案

本申请的目的通过以下技术方案实现。

本说明书实施例提供一种基于多模态数据融合的风险预测方法，包括：分别采集文本数据、图像数据和音频数据；分别对采集的文本数据、图像数据和音频数据进行包含时空校准的预处理；对预处理后的文本数据，通过自然语言处理算法提取文本语义特征；对预处理后的图像数据，通过计算机视觉算法提取图像特征；对预处理后的音频数据，通过语音分析算法提取音频特征；根据提取的文本语义特征，构建基于自然语言处理的第一预测模型；根据提取的图像特征，构建基于计算机视觉的第二预测模型；根据提取的音频特征，构建基于语音分析的第三预测模型；基于深度学习框架，融合第一预测模型、第二预测模型和第三预测模型，构建风险预测模型；利用构建的风险预测模型，对用户输入的多模态数据进行风险预测。其中，在第一预测模型、第二预测模型和第三预测模型时，通过机器学习识别训练数据中的时空异常点，标记并移除时空异常点。

进一步的，标记并移除时空异常点，还包括：构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系；在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则；将提取的时空关联关系和构建的时空关联规则进行匹配；当提取的时空关联关系不满足时空关联规则时，将对应的时空关联关系标记为第一异常点；其中，时空关联关系表示数据之间的时间顺序关联和空间邻近关联；文本实体包含人名、地名和事件；图像实体包含物体和场景；音频实体包含声音类型和音调模式。

进一步的，构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系，还包括如下步骤：对输入的文本数据、图像数据和音频数据进行命名实体识别，提取出文本实体、图像实体和音频实体，构成实体集合；基于共现分析算法，计算实体集合中任意两实体间的共现关系强度；构建实体网络图，以实体为节点以共现关系强度为边；对构建的实体网络图进行基于图论的社区发现优化算法，获取实体簇集合；将包含实体簇集合的实体网络图通过结构化知识表示，存储为知识图谱；在构建的知识图谱中标注实体的时间戳和空间坐标，获取知识图谱的时空特征；基于图关联分析算法，从知识图谱和对应的时空特征中提取出实体间的时空关联关系。

进一步的，在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则，还包括如下步骤：提取实体的时间戳和空间坐标作为时空属性，其中，通过自然语言处理算法提取文本实体；通过计算机视觉算法提取图像实体；通过语音分析算法提取音频实体；基于时空属性，通过动态时间规整算法计算各实体的时空属性之间的相似度，作为实体间的时空相似度；采用KNN聚类算法基于时空相似度构建每个实体的时空邻域；采用Apriori关联规则算法，以时空邻域为先验知识，生成实体间的时空关联规则。

进一步的，基于时空属性，通过动态时间规整算法计算各实体的时空属性之间的相似度，作为实体间的时空相似度，还包括如下步骤：利用Word2Vec模型将提取的实体的时间戳和空间坐标映射为向量表示，作为第一向量；计算第一向量之间的曼哈顿距离作为向量距离；判断计算得到的向量距离是否大于阈值，如果是，则采用梯度下降算法调整第一向量，使向量距离小于等于阈值，输出调整后的向量作为第二向量；循环执行，当所有的向量距离都小于等于阈值要求后，输出最终的向量距离，作为时空相似度。

进一步的，将提取的时空关联关系和构建的时空关联规则进行匹配，还包括如下步骤：对提取的时空关联关系进行句法解析，标注实体词性，识别实体类别；通过规则匹配的时间表达式识别方法，标注关联时间词；通过基于条件随机场模型的命名实体识别方法，标注关联空间词；通过依存句法分析，抽取出实体－时间词对和实体－空间词对作为关联特征；基于抽取得到的关联特征中，提取其中的实体类型、时间词和空间词作为第一过滤特征。

进一步的，将提取的时空关联关系和构建的时空关联规则进行匹配，还包括如下步骤：利用提取的第一过滤特征构建过滤树，其中树节点表示第一过滤特征，叶节点表示时空关联规则；通过句法依存解析算法提取时空关联关系转给你的实体类型、时间词和空间词作为第二过滤特征；将提取的第二过滤特征输入构建的过滤树，通过神经网络模型获取最匹配的时空关联规则。

进一步的，将提取的时空关联关系和构建的时空关联规则进行匹配，还包括如下步骤：将过滤树输出的时空关联规则中的第一过滤特征，与输入的时空关联关系中的第二过滤特征进行逐一比对；当实体类型、时间词或空间词任一特征不匹配时，判断匹配不通过；将判定为不匹配的时空关联关系标记为第一异常点；通过隔离森林算法识别并移除标记为第一异常点的数据。

进一步的，标记并移除时空异常点，还包括：获取移除第一异常点后的文本数据、图像数据和音频数据作为第一训练数据集；利用LSTM神经网络模型获取第一训练数据集的时间序列的相关性，作为时间相关性；利用mean shift算法获取第一训练数据集的空间分布的聚类性，作为空间相关性；利用Jensen Shannon散度算法计算第一训练数据集和时间相关性的关联度，作为第一关联度差异；利用Jensen Shannon散度算法计算第一训练数据集和空间相关性的关联度，作为第二关联度差异；对第一关联度差异和第二关联度差异进行归一化处理；计算归一化处理后的第一关联度差异和第二关联度差异的差异绝对值，作为最终关联度差异。

进一步的，标记并移除时空异常点，还包括：当最终关联度差异超过阈值时，将对应的数据标记为第二异常点；通过隔离森林算法识别并移除标记为第二异常点的数据；移除第二异常点后的训练集，作为第一预测模型、第二预测模型和第三预测模型的最终训练集。

3.有益效果

相比于现有技术，本申请的优点在于：

（1）通过采集、预处理和提取文本、图像和音频数据的特征，本方法充分利用了多源异构数据的信息；构建基于自然语言处理、计算机视觉和语音分析的预测模型，然后通过深度学习框架进行融合，形成综合的风险预测模型；这种多模态数据融合的方法能够更全面地捕捉不同模态数据的特征，从而提高了整体的预测准确性；

（2）通过构建包含文本、图像和音频数据的知识图谱，并利用关联分析算法提取数据之间的时空关联关系，本方法在异常点检测方面展现了独特优势；使用邻域计算方法构建实体间的时空关联规则，进一步优化了对时空异常点的检测。这种知识图谱与规则的结合提高了对异常点的敏感性和精确性，有助于更可靠地过滤掉可能影响预测精度的异常数据；

（3）通过构建实体网络图、社区发现、动态时间规整算法等步骤，本方法在知识图谱中标注实体的时空特征，提高了数据的关联度；同时，通过时空相似度的计算和关联规则的建立，强化了实体之间的时空关联关系；这有助于更准确地捕捉数据之间的关联模式，提高了模型对时空复杂性的适应性，进一步提升了风险预测的准确性。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的建立风险预测模型的示例性流程图；

图2是根据本说明书一些实施例所示的时空关联关系和时空关联规则关系的示例性流程图；

图3是根据本说明书一些实施例所示的获取时空关联关系的示例性流程图；

图4是根据本说明书一些实施例所示的获取时空关联规则的示例性流程图；

图5是根据本说明书一些实施例所示的获取训练数据集的示例性流程图。

具体实施方式

下面结合附图对本说明书实施例提供的方法和系统进行详细说明。

图1是根据本说明书一些实施例所示的建立风险预测模型的示例性流程图，如图1所示，本说明书实施例提供一种基于多模态数据融合的风险预测方法，包括：分别采集文本数据、图像数据和音频数据；具体的，在社会风险管理领域，通过网络爬虫技术、文本数据库构建、调研记录汇总等采集：公告、法规政策文件的文本内容；社交媒体用户的发帖内容；网络新闻报道的文本内容；问卷调查、访谈记录等文字材料。通过视频解析提取关键帧、移动APP采集用户图片、卫星数据接收等采集：社会治理重点区域的视频监控画面关键帧；用户智能设备拍摄的图片；卫星遥感影像。通过电话录音采集、声学传感器监测、语音采集设备等采集：电话记录客服录音；指定场所的声环境监测；语音调查的录音内容。

分别对采集的文本数据、图像数据和音频数据进行包含时空校准的预处理；具体的，社会治理领域的文本数据可能涉及不同地区、时间点和主题，因此需要进行时空校准以确保一致性。该技术可能包括使用时间戳标记文本数据的时间信息，同时使用地理信息（地名、区域关键词等）标记空间信息。通过这种方式，文本数据可以被正确地关联到特定的时空点，使得在构建知识图谱和关联规则时能更好地考虑时空特性。社会治理领域的图像数据可能涉及到监控摄像头、卫星图像等，这些图像数据可能包含时间和地点的信息。预处理阶段可以采用图像处理技术，如图像时间戳提取和地理坐标标定，以确保图像数据正确地映射到相应的时空点。这有助于在后续的特征提取和建模阶段更好地利用图像信息。社会治理领域的音频数据可能涉及到实地录音、监测设备等，需要考虑不同时间和地点的采集。在音频数据预处理中，可以使用音频文件的时间戳标记采集时间，同时通过声音的频谱分析等技术获取音频数据中的时空特征。这有助于在后续的特征提取和建模阶段更好地利用音频信息。总体而言，通过在社会治理领域应用该技术方案，对文本、图像和音频数据进行时空校准的预处理，可以更好地考虑社会治理领域数据的时空属性，提高模型对实际情况的适应性，从而增强风险预测的准确性和可靠性。

对预处理后的文本数据，通过自然语言处理算法提取文本语义特征；对预处理后的图像数据，通过计算机视觉算法提取图像特征；对预处理后的音频数据，通过语音分析算法提取音频特征；具体的，使用分词、词性标注等算法进行文本预处理；应用词向量、文档主题模型等算法抽取文本的语义特征；特征可包括词频、主题分布、情感倾向等。使用图像修复、增强等算法进行预处理；应用SIFT、HOG等算法提取局部特征；通过VGG、ResNet等模型提取全局特征；特征可包括文本、人脸、目标识别结果等。使用降噪、去混响等算法进行预处理；应用MFCC、声学模型等算法提取声学特征；通过声纹识别、语音识别等模型提取语音特征；特征可包括背景音、语句、说话人等信息。

根据提取的文本语义特征，构建基于自然语言处理的第一预测模型；根据提取的图像特征，构建基于计算机视觉的第二预测模型；根据提取的音频特征，构建基于语音分析的第三预测模型；具体地，使用自然语言处理（NLP）技术从文本数据中提取语义特征，可能包括词嵌入、词频统计、文本主题模型等方法，以捕获文本数据的语义信息。构建基于这些提取的语义特征的预测模型，可以采用机器学习（如支持向量机、决策树、深度学习模型等）或统计建模方法。这个模型可以用于预测社会治理领域的各种事件、趋势或者情感倾向，比如公共舆论的走向、事件的可能发展趋势等。利用计算机视觉技术从图像数据中提取特征，可能包括卷积神经网络（CNN）提取的视觉特征，例如边缘、纹理、物体识别等。构建基于这些图像特征的预测模型，可以使用深度学习模型（如卷积神经网络、迁移学习模型等）来处理图像数据，以实现社会治理领域内涉及监控、图像分析等方面的预测任务，比如安全事件的发生预测、基础设施状态的监测等。利用语音处理技术从音频数据中提取特征，可能包括声音的频谱、声纹识别特征等。构建基于这些音频特征的预测模型，可能采用机器学习或深度学习技术，用于社会治理领域中的语音识别、情感分析、声音监测等任务，比如紧急事件的声音识别、社交媒体内容的情感分析等。

基于深度学习框架，融合第一预测模型、第二预测模型和第三预测模型，构建风险预测模型；利用构建的风险预测模型，对用户输入的多模态数据进行风险预测。具体的，将第一预测模型（基于文本语义特征）、第二预测模型（基于图像特征）和第三预测模型（基于音频特征）通过深度学习框架进行融合。可以采用神经网络的融合层，如多输入的深度神经网络结构，将各模型的输出整合到一个共同的预测层。通过使用深度学习框架进行端到端的训练，优化整个模型的参数，使其能够更好地从多模态数据中学习时空关联信息，提高风险预测的准确性。接收用户输入的多模态数据，例如文本、图像和音频。确保输入数据在格式和表示上与模型训练时一致。对用户输入的多模态数据进行预处理，包括时空校准、特征提取等，以确保数据的一致性和可用性。将经过预处理的多模态数据输入到构建的深度学习风险预测模型中，获得对潜在风险的预测结果。模型输出可以是概率分布、类别标签等形式，反映输入数据对应的风险程度。解释模型的输出结果，以提供对风险的理解和可解释性。这可以通过可视化模型的决策过程、重要特征的贡献度等方式来实现。对构建的风险预测模型进行性能评估，使用测试集或实际应用中的数据进行验证。评估指标可以包括准确性、召回率、精确度等。根据评估结果进行模型调整和迭代，以进一步提高模型的性能和适应性。这可能包括调整模型的架构、增加训练数据、优化超参数等。这种融合模型能够更全面地考虑文本、图像和音频数据的信息，提高对社会治理风险的预测能力，从而更有效地支持决策制定和问题应对。

其中，在第一预测模型、第二预测模型和第三预测模型时，通过机器学习识别训练数据中的时空异常点，标记并移除时空异常点。其中，时空异常点：在时间和空间上与周围环境表现出明显差异的离群数据点称为时空异常点。它与周围数据存在时间顺序或者空间分布的不一致。在构建第一，二、三预测模型时，通过以下步骤识别和移除时空异常点：计算训练数据各样本在时间序列和空间分布上的相关统计量，如时间偏离度、空间距离等；利用Isolation Forest等机器学习算法，以上统计量为特征，识别出与周围环境时间顺序和空间分布差异明显的时空异常样本；在训练集中将识别出的时空异常样本移除，得到净化后的训练数据；在净化后的训练数据上分别训练构建第一，二、三预测模型。通过移除时空异常点，使三个模态的预测模型训练过程更加稳定可靠。

具体的，定义在社会治理领域中什么是时空异常点。这可能涉及到不寻常的事件、突发情况、异常行为等，这些可以通过历史数据或领域专家的知识来确定。对文本、图像和音频数据进行特征工程，提取关键特征用于训练机器学习模型。这可能包括语义特征、图像纹理特征、音频频谱特征等。选择适当的机器学习模型，如监督学习或无监督学习算法，用于识别时空异常点。常见的算法包括支持向量机、聚类算法、孤立森林等。使用历史数据训练机器学习模型，使其能够识别训练数据中的时空异常点。在训练过程中，使用已知的时空异常点进行有监督学习。利用训练好的机器学习模型对新的数据进行预测，标记其中的时空异常点。这可能涉及到对每个数据点分配一个异常分数或类别，以指示其异常程度。将被标记为时空异常点的数据从训练集中移除，以确保这些异常点不会对模型的性能产生负面影响。对经过处理的数据重新训练模型，并进行评估，以确保模型在时空异常点移除后的性能得到提升。在实际应用中，建立实时监测机制，随时监测新数据中的时空异常点，并及时调整模型以适应不断变化的社会治理环境。

进一步的，标记并移除时空异常点，还包括：构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系；在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则；将提取的时空关联关系和构建的时空关联规则进行匹配；当提取的时空关联关系不满足时空关联规则时，将对应的时空关联关系标记为第一异常点；其中，知识图谱（Knowledge Graph）是一种结构化的知识表达方式，通过实体（节点）及其之间的关系（边）构建网络图（Graph）来表现概念以及概念之间的联系，用于知识计算和推理。节点代表实体概念，边表示实体之间的关系。通过图结构化地组织知识概念及其关联。知识以一种可以计算机理解和处理的格式建模表示。包含实体属性、关系属性等丰富的信息。支持逻辑推理、知识问答等智能任务。可以统一并链接多个知识源，形成巨大的联通知识体系。可以与多模态内容如文本、图像相结合，构建异构知识图。

其中，邻域计算方法是指在知识图谱中，通过分析节点的邻近节点来发现节点之间的关联规则的方法。定义每个节点的邻域，通常使用1跳或2跳网络距离范围来确定邻域。在一个节点的邻域内，统计分析其他节点的特征和属性值。挖掘邻域内节点特征之间的相关性、约束关系等。使用关联规则、频繁模式发现等方法，学习节点之间的关联知识。将发现的关联知识构建为关联规则模板。对新的节点对，根据其特征推断匹配的规则，得到节点间的关联。规则可表达时间顺序、空间约束、因果关系等不同类型的关联。通过分析节点邻域内的模式，可发现节点间更多隐含的关联知识。

图2是根据本说明书一些实施例所示的时空关联关系和时空关联规则关系的示例性流程图，时空关联关系指从多模态数据中提取出来的文本、图像、音频实体之间的时间顺序关联和空间邻近关联，反映数据之间在时间和空间上的相关性。时空关联规则是在构建的知识图谱中，根据实体之间的时空属性，使用邻域计算等方法生成的实体间存在的时空约束规则。它反映了特定领域背景知识对实体时空关联的约束。时空关联关系是从数据中直接提取的关联，可能存在不合理之处；时空关联规则是基于特定领域先验知识构建的理论关联。时空关联关系可以通过匹配时空关联规则来发现其中不合理的部分；时空关联规则依赖于从数据中提取的大量时空关联关系来实现约束知识的积累。总之，两者相互制约形成理论与数据结合的时空约束体系，共同提高多模态数据融合的效果。

具体的，将文本、图像和音频数据整合到一个统一的知识图谱中。每种数据类型作为图谱中的一个实体类型，相应的数据样本作为实体节点。利用关联分析算法（如Apriori算法、FP-growth算法等），从整合的数据中提取时空关联关系。这可能包括文本中的关键词共现、图像中的物体关联、音频中的声音关联等。对每个关联关系添加时空标记，确保知识图谱中的关系包含时间和地理信息。对文本实体、图像实体和音频实体之间的关系进行邻域计算，以确定它们之间的时空关联规则。这可能包括计算实体邻近的时间和地理距离，确定它们之间的时空关联关系。制定规则，描述实体之间时空关联的预期模式。规则可以基于领域专家知识或通过对历史数据的分析得出。对知识图谱中提取的时空关联关系进行匹配，验证它们是否符合构建的时空关联规则。使用适当的算法（如模糊匹配、相似度计算等）来比较提取的时空关联关系和构建的时空关联规则，以确定它们之间的匹配程度。当提取的时空关联关系不满足时空关联规则时，将对应的时空关联关系标记为第一异常点。通过本申请，可以在社会治理领域构建具有时空特性的知识图谱，并通过关联分析和时空关联规则构建，对提取的时空关联关系进行验证和异常点的标记。这有助于发现异常情况，为决策者提供及时有效的信息，以更好地应对社会治理领域的潜在风险和问题。

其中，时空关联关系表示数据之间的时间顺序关联和空间邻近关联；文本实体包含人名、地名和事件；图像实体包含物体和场景；音频实体包含声音类型和音调模式。构建包含时空数据的知识图谱，通过实体关系提取文本数据、图像数据、音频数据之间的时空关联；在知识图谱中，定义文本实体、图像实体、音频实体间的时空关联规则，判断这些实体间关联是否异常；这里的“实体”具体指：文本数据中的人名、地名、事件等；图像数据中的物体、场景等；音频数据中的声音类型、音调模式等。时空数据是指这些不同模态的数据的时间属性和空间属性。通过分析不同模态数据实体之间的时空关联，可以发现数据之间的异常关联关系。将时空数据关联到具体的文本、图像、音频实体上，可以更好地判断不同模态数据之间的逻辑一致性，从而发现多模态之间存在的时空隐含异常。

图3是根据本说明书一些实施例所示的获取时空关联关系的示例性流程图，构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系，还包括如下步骤：对输入的文本数据、图像数据和音频数据进行命名实体识别，提取出文本实体、图像实体和音频实体，构成实体集合；基于共现分析算法，计算实体集合中任意两实体间的共现关系强度；构建实体网络图，以实体为节点以共现关系强度为边；对构建的实体网络图进行基于图论的社区发现优化算法，获取实体簇集合；将包含实体簇集合的实体网络图通过结构化知识表示，存储为知识图谱；在构建的知识图谱中标注实体的时间戳和空间坐标，获取知识图谱的时空特征；基于图关联分析算法，从知识图谱和对应的时空特征中提取出实体间的时空关联关系。

其中，共现分析算法通过统计计算两个词语或实体在同一上下文环境中同时出现的频率，来刻画它们之间的共现关系强度的算法。基于这样的统计关联分析，可以发现词语或实体之间的内在关联。在本申请中，在构建知识图谱过程中，收集所有文本、图像、音频实体构成实体集合；遍历实体集合中任意两实体，统计计算它们同时出现在一个样本数据中的频次；将上述同现频次标准化处理，作为两实体的共现关系强度；根据共现关系强度，连接实体构建知识图谱的拓扑结构。通过共现分析算法的应用，可以有效发现不同模态实体之间的内在关联，构建出表达实体关系的知识图谱。具体的，收集文本数据，抽取出所有词语构成词语集合。遍历任意两词语w1和w2。统计w1和w2同时出现在一个文本中的频数，记为n（w1，w2）。计算w1和w2的共现强度：s（w1，w2） = n（w1，w2）/（n（w1） * n（w2）），其中n（w1）和n（w2）分别是w1和w2的总出现频数。s（w1，w2）的值域在[0，1]之间，值越大表示w1和w2共现关系越强。对词语集合中任意词语对计算共现强度，构建词语之间的共现关系网络。也可以引入参数平滑共现强度的计算，防止出现0值。根据共现强度网络，可以分析词语之间的语义关联。这样通过统计词语共现频率，计算共现强度，可以有效地发现词语之间的内在关联关系。

其中，实体网络图，将实体作为节点，实体间的共现关系强度作为边构建的网络图数据结构。它直观地表达了不同实体之间的关联拓扑结构。在本申请中，基于共现关系强度构建连接不同文本、图像、音频实体的实体网络图，为进一步发现实体簇做准备。基于图论的社区发现优化算法，运用图切分、模块度优化等图论算法，在网络图中发现节点密度较大的社区结构或簇集合的算法。在本申请中，对构建的实体网络图应用社区发现优化算法，通过切割具有较高内聚性的子图，获取实体的簇集合，为知识图谱的构建提供结构信息。

其中，实体簇集合，通过社区发现算法在实体网络图中发现的具有高内聚力的实体子集合，实体之间共现关系较为紧密。在本申请中，在构建的实体网络图中，应用社区发现算法进行图切分，获取互相关联较紧密的实体簇；实体簇集合反映了实体之间主题相关性较强的聚类结构信息；将包含实体簇集合的网络结构知识，存储为知识图谱的拓扑结构；实体簇集合的发现，有利于知识图谱表示多模态数据之间的主题级别关联。通过实体簇集合的获得，知识图谱可以表示实体之间主题层次的关联关系，更好地支持多模态数据的融合。具体的，构建实体网络图，节点为各个实体，边表示实体间的关联权重。在实体网络图上，采用基于图论的社区发现算法，如Girvan Newman算法。Girvan Newman算法通过迭代删除边之间连接性最大的边，获取网络的连通分量，作为社区。在每次删除边后，使用模块度评价当前的社区划分结果。选择模块度达到最大时的社区划分结果，作为最佳的社区结构。将社区内具有高内聚力的实体簇作为实体簇集合。可以设置社区规模阈值，过滤掉过小的社区。最终输出规模合适、内聚力强的实体簇集合。实体簇集合反映了实体之间主题层次的关联。

具体地，使用自然语言处理技术对文本数据进行分析，进行命名实体识别，从中提取出人名、地名、组织名等文本实体。利用计算机视觉技术，采用对象检测或图像分割等方法，提取图像中的实体信息，如人物、物体等。使用音频信号处理技术，进行语音识别，提取出音频中的实体，如说话人的身份、环境音等。将从文本、图像和音频数据中提取的实体进行统一的整合，形成实体集合。对实体集合中的任意两个实体，通过共现分析算法计算它们之间的共现关系强度。这可以基于它们在同一篇文本、相同图像或相近时间段内出现的频率等指标。以实体为节点，共现关系强度为边，构建实体网络图。采用图数据结构存储实体网络图，方便后续的图论算法处理。运用基于图论的社区发现算法，将实体网络图分割成具有紧密关联的实体簇。对社区发现算法进行优化，以提高算法的准确性和效率。利用实体集合、共现关系强度和社区发现结果，建立结构化的知识图谱模型。将知识图谱存储在适当的数据库中，以支持快速查询和更新。在知识图谱中标注每个实体的时间戳和空间坐标，以增加时空特征。利用图关联分析算法，从知识图谱和对应的时空特征中提取实体间的时空关联关系。定义时空关联关系的规则，确保提取的关联关系符合社会治理领域的需求。通过这个综合技术方案，可以在社会治理领域构建包含文本、图像和音频数据的知识图谱，并提取实体间的时空关联关系，为决策者提供更全面、准确的信息支持。

更具体地，在本申请中，对文本类实体，通过时间表达式识别算法，提取出时间词并标注时间戳；对图像、视频等实体，提取元数据中的创建时间作为时间戳；对事件类实体，标注事件发生的时间范围。对文本实体，通过命名实体识别抽取地名，映射到地理坐标，对图像实体，提取EXIF数据中的GPS信息，标注地理坐标，对用户实体，标注用户所在地区的地理坐标信息。对每个实体，表示为（ID，时间戳，空间坐标）的特征向量，构建知识图谱的时空张量，表示知识图谱整体的时空分布，通过张量分解等方法，挖掘知识图谱的时空模式。按时间顺序和空间距离组织实体之间的关系。从知识图谱和时空特征中提取实体间的时空关联关系，构建知识图谱的邻接矩阵，表示实体间的关系。构建实体的时空特征矩阵，表示每个实体的时间戳和空间坐标。使用图关联规则挖掘算法，以邻接矩阵和时空矩阵作为输入，学习实体间关联的条件独立性规则。获取表示时间先后顺序的规则，如“如果实体A时间在实体B之前，则关系R成立”。获取表示空间约束的规则，如“如果实体A和B的空间距离小于X，则关系R成立”。对于新实体对，根据其时空特征，匹配适用的关联规则，预测实体间是否存在某种关联关系。返回实体对及其关联关系类型作为实体间的时空关联结果。按一定阈值过滤关联关系的置信度，获得高可信的时空关联知识。

图4是根据本说明书一些实施例所示的获取时空关联规则的示例性流程图，在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则，还包括如下步骤：提取实体的时间戳和空间坐标作为时空属性，其中，通过自然语言处理算法提取文本实体；通过计算机视觉算法提取图像实体；通过语音分析算法提取音频实体；基于时空属性，通过动态时间规整算法计算各实体的时空属性之间的相似度，作为实体间的时空相似度；采用KNN聚类算法基于时空相似度构建每个实体的时空邻域；采用Apriori关联规则算法，以时空邻域为先验知识，生成实体间的时空关联规则。

具体地，使用自然语言处理（NLP）算法对社交媒体、新闻文章、报告等文本数据进行处理；采用实体识别技术，从文本中提取具有时空属性的实体，例如地点、事件、时间等；通过NLP技术，解析文本中的时间信息和地点信息，将其作为实体的时空属性。使用计算机视觉算法处理图像数据，例如监控摄像头、卫星图像等。利用目标检测技术识别图像中的实体，如人、车辆、建筑等。通过分析图像中的元数据或利用图像中的地标信息，提取实体的时间戳和空间坐标。使用语音处理算法对音频数据进行分析，例如电话录音、会议记录等。转换音频中的语音内容为文本，识别可能包含时空信息的关键词。通过分析音频中的语境，提取实体的时间戳和可能的地点信息。通过以上步骤，可以从不同类型的数据源中提取实体的时间戳和空间坐标，形成这些实体的时空属性。

具体地，将每个实体的时空属性包括时间戳和空间坐标作为特征进行定义。动态时间规整（Dynamic Time Warping， DTW）算法是一种用于计算两个序列之间相似度的方法，适用于时序数据的比对。对于每对实体，将其时空属性中的时间戳序列和空间坐标序列作为两个时序输入，分别进行动态时间规整。将时间戳和空间坐标序列进行合适的序列化，使其成为可以用于DTW的输入。对于每一对实体，利用DTW算法计算其时戳序列和空间坐标序列的相似度。DTW算法允许在比较序列时考虑时间上的漂移和空间上的偏移，因此适用于时空数据的相似度计算。将时戳序列和空间坐标序列的相似度进行整合，得到实体间的综合时空相似度。将所有实体间的时空相似度组成一个相似度矩阵。根据具体任务和需求，设定一个相似度阈值，用于判断两个实体是否在时空上相似。利用计算得到的时空相似度矩阵，可以在社会治理领域中进行各种任务，如实体关联分析、异常检测等。

具体的，利用动态时间规整算法计算实体间的时空相似度，得到时空相似度矩阵。选择KNN聚类算法，基于时空相似度矩阵，将实体聚类到相似的时空邻域中。设置K值，表示每个实体将与其K个最相似的实体组成一个邻域。对于每个实体，根据KNN算法的结果，构建其时空邻域，包括K个最相似的实体。可以通过可视化工具展示实体及其时空邻域的聚类结果，帮助理解实体之间的时空关系。利用KNN聚类结果，将每个实体及其时空邻域的信息整理成适合Apriori算法处理的数据结构。将时空邻域作为先验知识输入到Apriori算法中，生成实体间的时空关联规则。设置支持度和置信度的阈值，以过滤掉不显著的关联规则。解释生成的时空关联规则，了解实体之间在时空上的关联关系的频繁性和强度。利用可视化工具展示生成的时空关联规则，以便决策者更直观地理解实体之间的时空关系。通过本申请，可以在社会治理领域中利用KNN聚类算法构建实体的时空邻域，并通过Apriori关联规则算法生成实体间的时空关联规则。这有助于深入挖掘实体之间的时空关系，为社会治理决策提供更精准的信息支持。

更具体地，在本申请中，采用Apriori关联规则算法生成实体间时空关联规则，收集知识图谱中的实体数据，标注实体间的关系和实体的时空特征。设置实体间时空距离的阈值，确定具有时空邻域关系的实体对数据集。在数据集上运行Apriori算法，以发现频繁项集。将频繁项集转换为关联规则的候选集。例如“实体A、B存在关系R，A时间早于B”。根据置信度和支持度等指标评估候选规则，过滤掉质量较低的规则。从候选规则集中选择topk关联规则作为最终的时空关联规则。生成的关联规则遵循先验的时空邻域约束，表达实体间的时空关联模式。可以持续积累新数据来更新和优化规则集。最终输出高质量的实体间时空关联规则。

其中，Word2Vec模型：一种用来产生词向量的神经网络模型。它通过构建上下文词语之间的关系，将词语映射到连续向量空间上的固定维度向量。在本申请中，收集知识图谱中实体的时间戳和空间坐标数据。将每个实体的时间戳和空间坐标表示为一个词语。将这些词语输入Word2Vec模型进行训练。Word2Vec模型学习到时间戳词语和空间坐标词语之间的上下文关系。得到把时间戳和空间坐标映射到连续向量的词向量表示。将词向量作为实体的第一向量，表示实体的时空信息。通过Word2Vec将实体的时间戳和空间坐标 discrete化为连续的向量表示，便于后续的向量运算和分析。

其中，梯度下降算法，一种迭代优化算法，通过计算目标函数的负梯度方向，实现函数值逐步最小化的算法。其步骤是计算梯度后沿负梯度方向更新参数。在本申请中，计算实体向量之间的曼哈顿距离，判断是否满足阈值要求；当距离大于阈值时，计算距离函数关于向量的负梯度；沿负梯度方向调整第一向量，得到更新后的第二向量；循环更新直至向量距离满足要求，实现向量的梯度下降优化。通过梯度下降算法的应用，可以有效调整词向量之间的距离，使之满足时空相似度计算的距离阈值要求。

其中，阈值的设置可以采用如下方案：计算一定量的实体向量之间的曼哈顿距离，统计所有向量距离构成的分布；根据统计出的向量距离分布的均值和标准差，如设定阈值为“均值+2*标准差”，使阈值处于向量距离分布的合理范围内。随着向量调整的进行，向量距离分布也在动态变化，可以每隔一定迭代次数，重新统计分布，动态调整阈值，保证阈值能自适应向量距离分布的变化。

具体的，将实体的时间戳和空间坐标作为输入数据，训练Word2Vec模型。可以将时间戳和空间坐标拼接成一个文本序列，作为Word2Vec模型的输入。Word2Vec模型将每个实体映射为一个向量表示，捕捉其在时空属性上的语义关系。对于每个实体，利用训练好的Word2Vec模型，提取其时间戳和空间坐标的向量表示。将时间戳和空间坐标的向量表示合并，形成第一向量。对于每一对实体，计算它们的第一向量之间的曼哈顿距离。曼哈顿距离是向量中对应元素差值的绝对值之和，用于度量向量之间的距离。遍历所有实体，计算每对实体之间的曼哈顿距离，形成距离矩阵。距离矩阵反映了实体之间在时空属性上的相似性，距离越小表示相似性越高。根据具体任务和需求，设定一个曼哈顿距离的阈值，用于判断两个实体在时空上的相似性。根据设定的阈值，识别在时空属性上相似的实体对。通过这个技术方案，可以利用Word2Vec模型将实体的时间戳和空间坐标映射为向量表示，并通过曼哈顿距离计算实体之间的相似性。这有助于更全面地理解实体在时空上的关联，为社会治理领域提供更多的时空特征信息。

具体的，定义一个初始的阈值，用于判断向量距离是否达到相似性要求。将第一向量作为初始的第二向量。使用梯度下降算法，对第二向量进行调整，以减小向量之间的曼哈顿距离。梯度下降的目标是最小化向量距离，通过计算损失函数的梯度并沿着梯度方向调整向量。计算调整后的第二向量与其他实体的向量之间的曼哈顿距离。判断计算得到的向量距离是否小于等于设定的阈值。如果满足，跳出循环，输出最终的向量距离作为时空相似度。如果不满足，继续梯度下降算法的迭代。在不断的迭代中，调整第二向量，重复直到所有的向量距离都小于等于阈值。输出调整后的第二向量，以及最终计算得到的向量距离作为时空相似度。这个技术方案通过梯度下降算法迭代调整向量，以达到使得向量之间的距离小于等于设定阈值的目标。这有助于在时空相似度计算中，通过动态调整向量以满足特定的相似性要求。

图5是根据本说明书一些实施例所示的获取训练数据集的示例性流程图，将提取的时空关联关系和构建的时空关联规则进行匹配，还包括如下步骤：对提取的时空关联关系进行句法解析，标注实体词性，识别实体类别；通过规则匹配的时间表达式识别方法，标注关联时间词；通过基于条件随机场模型的命名实体识别方法，标注关联空间词；通过依存句法分析，抽取出实体－时间词对和实体－空间词对作为关联特征；基于抽取得到的关联特征中，提取其中的实体类型、时间词和空间词作为第一过滤特征。

具体的，利用自然语言处理工具或库，对提取的时空关联关系进行句法解析，获取关系中的语法结构、成分以及关键词。句法解析有助于理解关系的语法结构，提取关键信息。对每个实体进行词性标注，确定其在关系中的角色和性质。例如，标注实体是否为主语、宾语、时间、地点等，有助于更深入地理解关系。利用命名实体识别（NER）技术或实体分类模型，对实体进行类别的自动标注。识别实体类别可以帮助理解关系中涉及的具体实体是什么，比如人物、地点、时间等。结合实体的词性和类别信息，进行语义关联，理解关系中的语义含义。例如，将时间实体关联到时间维度，地点实体关联到空间维度，人物实体关联到社会角色等。通过这个技术方案，可以对提取的时空关联关系进行句法解析、实体词性标注和实体类别识别，从而更深入地理解社会治理领域中的时空关联关系。这有助于提高关系的表达能力，使得关联关系更易于理解和利用。制定一组规则，用于匹配文本中的时间表达式。这些规则可以包括正则表达式、关键词匹配等，以捕捉不同形式的时间描述，如日期、时间段、相对时间等。使用正则表达式模式，对文本进行匹配，以识别时间表达式。例如，可以使用正则表达式匹配日期的常见格式，如“YYYY-MM-DD”或“MM/DD/YYYY”等。定义一组关键词，代表不同的时间概念，如“今天”“明天”“下周”等。通过匹配这些关键词，识别文本中的相对时间表达。将不同规则组合起来，形成一个综合的规则系统，以提高对各种时间表达式的覆盖能力。当匹配到时间表达式时，将其标注为关联时间词。可以使用特殊的标记或注释方式，以便后续的处理阶段识别这些时间词。在关联时间词标注的基础上，进行文本分析和语法解析，以理解时间词在句子中的语义角色，例如时间的起始点、终点、持续时间等。将标注的关联时间词与时空关系进行关联。这可以通过匹配时间词和实体之间的语法关系、位置关系等方式来实现。通过这个技术方案，可以通过规则匹配的方法，标注关联时间词，进一步加强对社会治理领域中事件时序信息的处理和理解。

具体的，收集具有空间信息的文本数据，包括社会治理领域的相关文本。对文本进行标注，标明空间实体的位置。从训练数据中抽取用于训练条件随机场的特征。这些特征可以包括词性、上下文关系、词的字符级别特征等。使用准备好的训练数据和特征，训练条件随机场模型。该模型可以学习文本中空间实体的上下文信息，从而在标注阶段更准确地识别空间实体。利用训练好的条件随机场模型，对社会治理领域的文本进行命名实体识别。特别关注标注空间实体，如地名、地点等。进行后处理步骤，处理模型可能存在的误差和歧义。可以使用规则、上下文信息等方法，提高标注的准确性。将标注的关联空间词与时空关系进行关联。这可以通过匹配空间词和其他实体之间的语法关系、位置关系等方式来实现。利用关联的空间词，进行语义关联，理解关系中的空间含义。将空间实体关联到特定的地理坐标或地理区域。将标注的关联空间词与时间信息和其他实体关联起来，形成更全面的时空关系。通过这个技术方案，可以使用基于条件随机场模型的命名实体识别方法，标注关联空间词，有助于深入挖掘社会治理领域中的时空关系。

具体地，利用依存句法分析工具，对社会治理领域的文本进行句法分析。这可以帮助理解句子中各个词汇之间的依存关系，包括主谓关系、动宾关系等。在句法分析的基础上，通过命名实体识别或其他实体抽取方法，抽取出文本中的实体，如人物、组织、地点等。利用句法分析结果，抽取出与时间相关的词汇，包括日期、时间点、时间段等。同样，根据句法分析结果，抽取出与空间相关的词汇，如地名、地点、方向等。结合实体抽取和时间词抽取结果，识别实体与时间词之间的依存关系，抽取实体－时间词对。这可以通过分析依存关系树中实体和时间词之间的连接来实现。同样，结合实体抽取和空间词抽取结果，识别实体与空间词之间的依存关系，抽取实体－空间词对。将抽取出的实体－时间词对和实体－空间词对作为关联特征进行表示。这可以采用向量表示、特征嵌入等方法，将文本信息转化为计算机可处理的形式。将抽取出的关联特征应用于时空关系的建模和分析。可以将这些特征作为模型的输入，用于训练机器学习模型或进行时空关系的挖掘。将抽取出的实体－时间词对与时空关系关联起来，形成更全面的时空关系。同样，将抽取出的实体－空间词对与时空关系关联起来，形成更全面的时空关系。通过这个技术方案，可以通过依存句法分析，抽取出实体－时间词对和实体－空间词对作为关联特征，有助于更全面地理解社会治理领域中的时空关系。这为深入挖掘文本信息中的时空信息提供了有效的手段。

具体地，输入：抽取得到的关联特征，包括实体－时间词对和实体－空间词对。对关联特征进行依存句法分析，获取句法树。从依存树中提取出与实体词相关的时间词和空间词词语。利用命名实体识别技术，识别出实体词对应的实体类型，如人名、地名、机构名等。将抽取的实体类型添加到第一过滤特征集合。对关联特征中的时间词进行规则匹配，归一化标准化时间表达式。将处理后的时间词添加到第一过滤特征集合。对关联特征中的空间词进行地名识别，映射到标准地名、坐标等表示。将处理后的空间词添加到第一过滤特征集合。最终输出包含实体类型、时间词、空间词的第一过滤特征。可以基于词向量技术映射这些过滤特征到向量空间表示。

其中，过滤树是一种基于规则的树结构，用于进行多级过滤和搜索。在本申请中，过滤树的节点表示实体的第一过滤特征，如类型、类别等属性。过滤树的叶节点表示实体对之间的时空关联规则。从根节点开始，根据实体的第一过滤特征，递归地在树中寻找匹配的分支。当到达叶节点时，得到该实体对匹配的时空关联规则。过滤树实现了按第一过滤特征对关联规则进行级联过滤的效果。通过构建过滤树，可以对大量关联规则进行高效索引和检索。根据实体的特征，快速定位到潜在的匹配关联规则。

其中，句法依存解析算法是一种自然语言处理技术，通过分析句子的语法结构，找到词与词之间的依存关系，形成依存树。在本申请中，对包含时空信息的自然语言文本进行句法依存解析。从依存树中提取实体词与时间词、空间词之间的依存关系。识别出表示时空关联的依存关系，如“主谓关系”“介词关系”等。通过依存关系确定时空词与对应实体词的关联。将实体词、时间词和空间词作为第二过滤特征。在过滤树中使用第二过滤特征进一步限定时空关联规则的匹配范围。通过依存解析获得实体与时空词的关联作为第二过滤特征，可以提高时空关联规则过滤的准确性。

具体的，制定一组时空关联规则，描述实体、时间词和空间词之间的关系。这可以通过领域专家知识、文本分析和实际数据来定义。针对每个时空关联规则，提取规则中涉及的实体类型、时间词和空间词。这可以通过命名实体识别、时间词抽取和空间词抽取等技术来实现。将提取的实体类型、时间词和空间词作为第一过滤特征，构建一个特征集合。这个集合将用于过滤和匹配时空关联规则。对于每个时空关联规则，利用提取的第一过滤特征构建一个过滤树。过滤树的节点表示第一过滤特征，叶节点表示对应的时空关联规则。遍历时空关联规则，对每个规则，根据实体类型、时间词和空间词的关系构建过滤树。每个节点表示一个特征，可以是实体类型、时间词或空间词。在构建过程中，根据规则的结构，将相应的特征添加到过滤树中的适当位置。当需要应用时空关联规则时，对文本进行实体类型、时间词和空间词的提取，然后利用构建好的过滤树进行搜索和匹配。根据特征在过滤树上的路径，可以快速定位到匹配的时空关联规则。将文本中提取的实体类型、时间词和空间词作为输入，应用过滤树进行规则匹配。通过遵循过滤树的路径，找到与文本匹配的时空关联规则。将匹配的时空关联规则中的时间信息与时空关系关联起来，形成更全面的时空关系。

具体的，利用句法依存解析算法对社会治理领域的文本进行解析。这有助于理解词汇之间的依存关系，提取出主谓、动宾等关系。基于句法依存解析的结果，提取文本中的时空关联关系，包括实体类型、时间词和空间词。这可以通过分析依存关系树中的词汇节点之间的关系来实现。将提取的实体类型、时间词和空间词作为第二过滤特征，构建一个特征集合。这个集合将作为神经网络模型的输入。利用提取的第一过滤特征和第二过滤特征，构建过滤树。过滤树的节点表示第一和第二过滤特征，叶节点表示对应的时空关联规则。设计一个神经网络模型，该模型的输入是第一和第二过滤特征。可以采用深度学习模型，如多层感知器（MLP）、卷积神经网络（CNN）或循环神经网络（RNN）等。使用带有已知时空关联规则的训练数据，训练神经网络模型。训练过程中，模型学习如何从第一和第二过滤特征中捕捉时空关联规则的模式。当需要应用时空关联规则时，将提取的第一和第二过滤特征输入经过训练的神经网络模型。模型输出包含对应于每个规则的匹配度分数。根据模型输出的匹配度分数，选择具有最高分数的时空关联规则作为最终匹配结果。这可以通过设定一个阈值或采用排名方法来实现。通过这个技术方案，可以通过句法依存解析提取时空关联关系中的实体类型、时间词和空间词作为第二过滤特征，并通过神经网络模型获取最匹配的时空关联规则。这样的方法结合了传统的规则匹配和深度学习的优势，能够更灵活地处理复杂的时空关联关系。

更具体的，在本申请中，获取最匹配时空关联规则通过如下方案：构建一个多层感知机（MLP）神经网络，输入为实体对的第二过滤特征。网络隐藏层对第二过滤特征进行非线性转换，提取关联规则匹配所需的语义特征。输出层表示不同关联规则的匹配概率，经过Softmax 归一化。使用实体对和对应关联规则进行监督训练，最小化交叉熵损失。对新输入的第二过滤特征，通过前向传播得到各关联规则的匹配概率。选择输出概率最大，即最可能匹配的关联规则。可以基于规则匹配历史进一步微调网络，提升匹配准确率。该网络综合利用第二过滤特征进行关联推理，输出最可能的匹配规则。

具体的，从构建的过滤树中获取时空关联规则，其中包含第一过滤特征，例如实体类型、时间词和空间词。对于每个时空关联规则，逐一比对其第一过滤特征与输入的时空关联关系中的第二过滤特征。比对的过程包括对实体类型、时间词和空间词的逐一比对。在比对的过程中，如果发现实体类型、时间词或空间词中的任何一个特征不匹配，即存在不一致，判定匹配不通过。将判定为不匹配的时空关联关系标记为第一异常点。这可以通过记录关联关系的标识或生成异常报告来实现。针对标记为第一异常点的时空关联关系，可以进一步进行处理，例如记录日志、发送警报或进行人工审查等。具体处理方式可以根据应用场景和需求进行定制。在时空关联规则匹配的过程中，通过比对第一过滤特征和第二过滤特征，判定匹配不通过的时空关联关系，并标记为第一异常点。这有助于及时识别潜在的不一致或异常情况，提高系统的鲁棒性和准确性。

更具体地，在本申请中，进行过滤特征比对判断匹配的技术方案包括：获取过滤树输出的关联规则的第一过滤特征，包括实体类型、类别等。获取输入实体对的第二过滤特征，包括对应实体的时间词和空间词。逐一比对实体类型特征：如果实体类型不同，则判断不匹配。逐一比对时间词特征：使用语义相似度算法比对时间词语义相似性，如果低于阈值，则时间词不匹配。逐一比对空间词特征：将空间词映射到坐标并计算距离。如果距离超过阈值，则空间词不匹配。如果实体类型、时间词或空间词任意一项不匹配，则判定该关联规则匹配不通过。返回最终通过过滤的匹配关联规则结果。

具体的，将标记为第一异常点的时空关联关系数据与正常数据一起组成一个数据集。对数据集进行特征工程，将时空关联关系中的实体类型、时间词和空间词等特征进行适当的编码和处理，以便输入隔离森林算法。隔离森林是一种异常检测算法，它通过构建随机森林来识别异常点。隔离森林通过将异常点与正常点区分开，形成孤立的区域，从而实现异常检测。将数据集分为训练集和测试集。训练集用于构建隔离森林，而测试集用于评估模型的性能。利用训练集数据训练隔离森林模型。该模型将学习正常时空关联关系的模式，并尝试将异常点孤立在随机森林中。使用训练好的隔离森林模型对测试集进行预测，识别出异常点。在这里，标记为第一异常点的时空关联关系将被识别为异常。根据隔离森林的预测结果，将被标记为异常点的时空关联关系从数据集中移除。这可以通过将异常点从数据集中过滤或创建一个新的、去除异常点的数据集来实现。对于被移除的异常点，可以进行模型性能的评估，包括准确率、召回率、F1分数等指标，以确保模型的有效性。利用隔离森林算法对标记为第一异常点的数据进行识别和移除，从而提高数据的质量和减少异常对系统的影响。

具体的，将第一训练数据集中的时间序列数据提取出来，确保每个时间序列样本包含相应的时间步长和特征。构建适用于时间序列数据的LSTM神经网络模型。LSTM是一种循环神经网络（RNN）的变体，特别适用于处理长序列数据，能够捕捉序列中的长期依赖关系。对时间序列数据进行适当的预处理，例如标准化、归一化或其他必要的处理，以确保数据在模型中的有效性。定义LSTM模型的输入层和输出层。输入层应包括适当的时间步长和特征数，输出层可以是一个或多个用于表示时间序列相关性的神经元。使用准备好的时间序列数据训练LSTM模型。在训练过程中，模型将学习数据中的时间序列模式，并尝试捕捉与异常点移除后的数据相关的时间相关性。使用验证集对训练好的LSTM模型进行验证，评估其对新数据的泛化能力。可以使用各种指标，如均方误差（MSE）或其他适当的时间序列相关性指标。从训练好的LSTM模型中提取时间序列的相关性表示。这可以是隐藏层的输出或模型中的其他表示，取决于具体的模型架构和任务需求。将提取的时间相关性应用于社会治理领域的具体任务。这可能包括对时间相关性的分析、趋势预测、异常检测等。确保时间相关性的应用与具体问题相匹配。

具体的，从第一训练数据集中提取空间数据，确保每个样本包含相应的空间信息，例如经度和纬度。Mean Shift是一种非参数化的密度估计和聚类算法，通过调整数据点的位置来找到数据点的局部密度最大值，从而实现聚类。对空间数据进行适当的预处理，例如标准化或归一化，以确保Mean Shift算法的有效性。应用Mean Shift算法对空间数据进行聚类。算法将自动识别数据中的聚类中心，形成簇，每个簇代表一个空间聚类。从MeanShift算法中提取得到的空间聚类结果。每个簇代表了第一训练数据集中的一个空间相关性群体。提取每个空间聚类簇的中心点，这些中心点可以用于表示整个簇的空间分布。将提取的空间聚类结果应用于社会治理领域的具体任务。这可能包括对不同空间区域的特征分析、群体行为的空间分布分析等。确保空间相关性的应用与具体问题相匹配。

具体的，使用LSTM模型提取的时间序列相关性数据作为第一关联度差异的输入。Jensen-Shannon散度是一种衡量两个概率分布之间相似性的方法，可以用于比较两个概率分布之间的差异。对提取的时间相关性数据进行适当的预处理，以确保数据格式符合JS散度算法的要求。利用JS散度算法计算第一训练数据集的时间相关性数据与其他相似性基准的散度。这个基准可以是一个参考的时间序列或者是一个期望的时间分布。提取JS散度算法计算得到的关联度差异作为第一关联度差异。使用Mean Shift算法得到的空间聚类结果作为第二关联度差异的输入。利用JS散度算法计算第一训练数据集的空间相关性数据与其他相似性基准的散度。这个基准可以是一个参考的空间聚类结果或者是一个期望的空间分布。提取JS散度算法计算得到的关联度差异作为第二关联度差异。将第一关联度差异和第二关联度差异应用于社会治理领域的具体任务。这可能包括对时间和空间关联度的变化进行分析，异常点检测，或者其他与关联度有关的任务。

具体的，在本申请中，分别得到第一关联度差异d1和第二关联度差异d2。对d1和d2进行归一化处理，得到归一化后的差异d1'和d2'。（例如采用最小-最大归一化，将值映射到0-1范围内）；计算归一化后的差异d1'和d2'的差值：d = |d1' - d2'|，该差值d即为两种关联度差异的差异的绝对值。将d作为最终关联度差异，反映两种关联差异间的整体差异。

其中，在本申请中，设置最终关联度差异阈值的技术方案可以采用：收集足够量的关联度差异数据，统计其概率分布。确定差异值的正常范围和异常范围。根据统计分布参数，选取合理的临界值作为阈值。例如设定为均值加上2倍标准差。考虑问题场景和预测结果的敏感性，确定是否需要调整阈值的大小，如缩小范围将更多样本判为异常。可以设置多个候选阈值，根据模型预测结果选择最优阈值。采用交叉验证的方式评估不同阈值对模型性能的影响，选择最佳阈值。可以设计动态调整阈值的机制，根据新数据不断优化阈值。组合统计方法和经验法则，综合确定阈值，实现可解释性。

具体的，计算不同模态数据之间的关联度差异，得到最终关联度差异。设定最终关联度差异的阈值，当差异超过阈值时，标记该数据样本为第二异常点。利用隔离森林算法来识别第二异常点：使用样本的关联度差异作为特征；构建多棵隔离树，获得每个样本的异常度；根据阈值判断隔离度高的样本为第二异常点。从原始训练集中移除被标记的第二异常点，得到净化后的新训练集。使用新训练集分别训练构建文本、图像、音频三个模态的预测模型。完成第一预测模型、第二预测模型、第三预测模型的训练。最终获得净化后的多模态预测模型。通过标记和移除关联度异常点，有效过滤掉因时空关联不匹配导致的异常样本，提高模型的鲁棒性。

以上示意性地对本申请创造及其实施方式进行了描述，该描述没有限制性，在不背离本申请的精神或者基本特征的情况下，能够以其他的具体形式实现本申请。附图中所示的也只是本申请创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性地设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于多模态数据融合的风险预测方法，包括：

分别采集文本数据、图像数据和音频数据；

分别对采集的文本数据、图像数据和音频数据进行包含时空校准的预处理；

对预处理后的文本数据，通过自然语言处理算法提取文本语义特征；对预处理后的图像数据，通过计算机视觉算法提取图像特征；对预处理后的音频数据，通过语音分析算法提取音频特征；

根据提取的文本语义特征，构建基于自然语言处理的第一预测模型；根据提取的图像特征，构建基于计算机视觉的第二预测模型；根据提取的音频特征，构建基于语音分析的第三预测模型；

基于深度学习框架，融合第一预测模型、第二预测模型和第三预测模型，构建风险预测模型；

利用构建的风险预测模型，对用户输入的多模态数据进行风险预测；

其中，在第一预测模型、第二预测模型和第三预测模型时，通过机器学习识别训练数据中的时空异常点，标记并移除时空异常点。

2.根据权利要求1所述的基于多模态数据融合的风险预测方法，其特征在于：

标记并移除时空异常点，还包括：

构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系；

在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则；

将提取的时空关联关系和构建的时空关联规则进行匹配；

当提取的时空关联关系不满足时空关联规则时，将对应的时空关联关系标记为第一异常点；

其中，

时空关联关系表示数据之间的时间顺序关联和空间邻近关联；

文本实体包含人名、地名和事件；

图像实体包含物体和场景；

音频实体包含声音类型和音调模式。

3.根据权利要求2所述的基于多模态数据融合的风险预测方法，其特征在于：

构建包含文本数据、图像数据和音频数据的知识图谱，采用关联分析算法提取数据之间的时空关联关系，还包括如下步骤：

对输入的文本数据、图像数据和音频数据进行命名实体识别，提取出文本实体、图像实体和音频实体，构成实体集合；

基于共现分析算法，计算实体集合中任意两实体间的共现关系强度；

构建实体网络图，以实体为节点，以共现关系强度为边；

对构建的实体网络图进行基于图论的社区发现优化算法，获取实体簇集合；

将包含实体簇集合的实体网络图通过结构化知识表示，存储为知识图谱；

在构建的知识图谱中标注实体的时间戳和空间坐标，获取知识图谱的时空特征；

基于图关联分析算法，从知识图谱和对应的时空特征中提取出实体间的时空关联关系。

4.根据权利要求3所述的基于多模态数据融合的风险预测方法，其特征在于：

在构建的知识图谱中，根据邻域计算方法构建文本实体、图像实体和音频实体间的时空关联规则，还包括如下步骤：

提取实体的时间戳和空间坐标作为时空属性，其中，通过自然语言处理算法提取文本实体；通过计算机视觉算法提取图像实体；通过语音分析算法提取音频实体；

基于时空属性，通过动态时间规整算法计算各实体的时空属性之间的相似度，作为实体间的时空相似度；

采用KNN聚类算法基于时空相似度构建每个实体的时空邻域；

采用Apriori关联规则算法，以时空邻域为先验知识，生成实体间的时空关联规则。

5.根据权利要求4所述的基于多模态数据融合的风险预测方法，其特征在于：

基于时空属性，通过动态时间规整算法计算各实体的时空属性之间的相似度，作为实体间的时空相似度，还包括如下步骤：

利用Word2Vec模型将提取的实体的时间戳和空间坐标映射为向量表示，作为第一向量；

计算第一向量之间的曼哈顿距离作为向量距离；

判断计算得到的向量距离是否大于阈值，如果是，则采用梯度下降算法调整第一向量，使向量距离小于等于阈值，输出调整后的向量作为第二向量；

循环执行，当所有的向量距离都小于等于阈值要求后，输出最终的向量距离，作为时空相似度。

6.根据权利要求4所述的基于多模态数据融合的风险预测方法，其特征在于：

将提取的时空关联关系和构建的时空关联规则进行匹配，还包括如下步骤：

对提取的时空关联关系进行句法解析，标注实体词性，识别实体类别；

通过规则匹配的时间表达式识别方法，标注关联时间词；

通过基于条件随机场模型的命名实体识别方法，标注关联空间词；

通过依存句法分析，抽取出实体时间词对和实体空间词对作为关联特征；

基于抽取得到的关联特征中，提取其中的实体类型、时间词和空间词作为第一过滤特征。

7.根据权利要求6所述的基于多模态数据融合的风险预测方法，其特征在于：

利用提取的第一过滤特征构建过滤树，其中树节点表示第一过滤特征，叶节点表示时空关联规则；

通过句法依存解析算法提取时空关联关系中的实体类型、时间词和空间词作为第二过滤特征；

将提取的第二过滤特征输入构建的过滤树，通过神经网络模型获取最匹配的时空关联规则。

8.根据权利要求7所述的基于多模态数据融合的风险预测方法，其特征在于：

将过滤树输出的时空关联规则中的第一过滤特征，与输入的时空关联关系中的第二过滤特征进行逐一比对；

当实体类型、时间词或空间词任一特征不匹配时，判断匹配不通过；

将判定为不匹配的时空关联关系标记为第一异常点；

通过隔离森林算法识别并移除标记为第一异常点的数据。

9.根据权利要求8所述的基于多模态数据融合的风险预测方法，其特征在于：

标记并移除时空异常点，还包括：

获取移除第一异常点后的文本数据、图像数据和音频数据作为第一训练数据集；

利用LSTM神经网络模型获取第一训练数据集的时间序列的相关性，作为时间相关性；

利用mean shift算法获取第一训练数据集的空间分布的聚类性，作为空间相关性；

利用Jensen Shannon散度算法计算第一训练数据集和时间相关性的关联度，作为第一关联度差异；

利用Jensen Shannon散度算法计算第一训练数据集和空间相关性的关联度，作为第二关联度差异；

对第一关联度差异和第二关联度差异进行归一化处理；

计算归一化处理后的第一关联度差异和第二关联度差异的差异绝对值，作为最终关联度差异。

10.根据权利要求9所述的基于多模态数据融合的风险预测方法，其特征在于：

标记并移除时空异常点，还包括：

当最终关联度差异超过阈值时，将对应的数据标记为第二异常点；

通过隔离森林算法识别并移除标记为第二异常点的数据；

移除第二异常点后的训练集，作为第一预测模型、第二预测模型和第三预测模型的最终训练集。