CN117539920B

CN117539920B - 基于房产交易多维度数据的数据查询方法及系统

Info

Publication number: CN117539920B
Application number: CN202410012977.9A
Authority: CN
Inventors: 刘煜
Original assignee: Shanghai Tuli Information Technology Co ltd
Current assignee: Shanghai Tuli Information Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-05
Anticipated expiration: 2044-01-04
Also published as: CN117539920A

Abstract

本发明涉及数据查询技术领域，尤其涉及一种基于房产交易多维度数据的数据查询方法及系统。所述方法包括以下步骤：获得原始房产交易数据；对原始房产交易数据进行异常值检测，生成异常标记数据集和房产交易归一化数据；对异常标记数据集进行数据修复，从而生成房产交易归一化数据；对房产交易归一化数据进行数据标准化，生成标准房产交易数据；对标准房产交易数据进行边节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；根据节点索引数据对房产交易节点进行图数据分区，生成交易分区优化数据；本发明通过异常值处理、图数据建模、跨领域数据利用和迁移学习，提升房产交易多维度数据查询的准确性和预测能力。

Description

基于房产交易多维度数据的数据查询方法及系统

技术领域

本发明涉及数据查询技术领域，尤其涉及一种基于房产交易多维度数据的数据查询方法及系统。

背景技术

过去的房产交易数据以纸质形式存档。这种方式难以管理和检索大量信息，耗费时间且容易出错。随着计算机技术的发展，数据开始数字化存储，简化了存储和检索流程，但查询仍受限于基本的文本搜索功能。随后，随着数据库技术的发展，出现了关系型数据库管理系统（RDBMS），如SQL数据库，为查询提供了更强大的功能。然而，传统的SQL查询在处理多维度数据和大规模数据时效率不高，限制了对复杂数据模式的灵活探索。随着大数据技术的崛起，NoSQL数据库和分布式计算框架如Hadoop和Spark等的出现，为处理大规模房产交易数据提供了新的可能性。这些技术使得可以更快地处理海量数据，并通过分布式计算实现并行查询，加速数据处理和分析。然而目前的房产交易数据涉及多维度复杂关系，包括地理位置、经济因素等，当前技术难以完全捕捉和分析这些复杂关系，导致查询结果可能不够全面，影响了查询的全面性和准确性。

发明内容

基于此，有必要提供一种基于房产交易多维度数据的数据查询方法及系统，以解决至少一个上述技术问题。

为实现上述目的，一种基于房产交易多维度数据的数据查询方法及系统，所述方法包括以下步骤：

步骤S1：获得原始房产交易数据；对原始房产交易数据进行异常值检测，生成异常标记数据集和房产交易归一化数据；对异常标记数据集进行数据修复，从而生成房产交易归一化数据；对房产交易归一化数据进行数据标准化，生成标准房产交易数据；

步骤S2：对标准房产交易数据进行边节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；根据节点索引数据对房产交易节点进行图数据分区，生成交易分区优化数据；将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图；

步骤S3：根据分布式房产交易网络图进行图神经网络模型建模，生成房产交易图神经网络模型；对房产交易图神经网络模型进行多维度特征向量标签处理，生成房产交易聚类结果标签；对房产交易聚类结果标签进行聚类性能评估，生成房产交易聚类性能评估数据；

步骤S4：获取跨领域房产交易数据和用户查询需求数据；将跨领域房产交易数据和房产交易聚类性能评估数据进行预测模型训练，生成房产交易迁移学习模型；将用户查询需求数据导入至房产交易迁移学习模型中进行查询预测，生成房产交易预测结果数据。

本发明通过识别和处理异常值可以提高数据质量，减少对模型的负面影响。异常值可能是数据录入错误、系统故障或其他异常情况的结果。排除这些异常值可以使模型更准确地学习数据的模式。提高模型的鲁棒性和泛化能力，降低模型对异常情况的敏感性。通过生成异常标记数据集，可以为异常值的后续修复提供有用的信息。同时，对房产交易数据进行归一化可以确保数据的一致性和可比性。修复异常标记数据集中的数据可以填补潜在的数据缺失或错误，提高数据的完整性。归一化可以消除不同特征之间的量纲影响，确保它们在相同的尺度上。这有助于加速模型的收敛过程，提高模型训练的稳定性。标准化使得数据服从标准正态分布，有助于某些模型的性能提升，尤其是对于基于距离的模型。通过创建边节点和生成房产交易节点，可以更好地表示房产交易之间的关系，形成更丰富的图数据结构，节点索引可以提高对图数据的检索效率，加速图算法的运行速度，图数据分区可以使得分布式计算更加高效，减少通信开销，提高计算性能。交易分区优化数据则可以优化图数据分布，提高图处理的并行性，将分区优化数据进行网络连接，可以构建出分布式的房产交易网络图，更好地反映房产交易数据的全局结构和关联关系。GNN能够有效地捕捉图数据中的复杂关系和结构，适用于处理房产交易网络图这样的复杂数据，多维度特征向量能够更全面地描述房产交易节点的特征，标签处理有助于为模型提供监督学习的目标，聚类结果标签能够将相似的房产交易节点归为一类，帮助理解房产市场中的不同聚类群体，对聚类结果进行性能评估可以客观地衡量模型的有效性，确保聚类结果的质量和准确性。将跨领域房产交易数据与房产交易聚类性能评估数据相结合，可以提供更全面、更准确的信息来训练迁移学习模型，将用户查询需求数据导入迁移学习模型进行预测，能够根据模型对房产交易进行个性化预测和推荐，迁移学习模型能够利用已有的知识来加速在新领域或新任务上的学习，提高预测的准确性和适应性。生成的房产交易预测结果数据可以为决策者、投资者或用户提供有针对性的信息和建议。因此，本发明通过异常值处理、图数据建模、跨领域数据利用和迁移学习，提升房产交易多维度数据查询的准确性和预测能力。

本发明的有益效果在于通过步骤S1中的异常值检测、修复和数据标准化，可以提高原始房产交易数据的质量，减少噪声和异常对后续分析的干扰，生成的标准房产交易数据更加可靠，有助于建立更准确的模型和提高查询结果的可信度。步骤S2中的图数据分区和分布式房产交易网络图的创建可以提高数据处理的效率和可扩展性，生成的分布式房产交易网络图能够更好地反映交易之间的关系，有助于更全面地理解房产市场的复杂结构。步骤S3中的图神经网络模型能够从图数据中学习更复杂的模式和关系，提高建模的灵活性，生成的房产交易图神经网络模型可以更好地捕捉潜在的特征，对房产交易进行更准确的分类和聚类，为后续的分析提供更丰富的信息。步骤S4中的迁移学习模型能够将不同领域的数据结合起来，提高对跨领域房产交易数据的预测能力，通过将用户查询需求数据导入迁移学习模型，生成的房产交易预测结果更具个性化，能够更好地满足用户的需求。步骤S3中的聚类性能评估数据可以用于评估模型的效果，指导后续的模型优化，通过对聚类性能的评估，可以更好地理解模型对房产交易数据的拟合情况，从而指导决策者做出更明智的决策。因此，本发明通过异常值处理、图数据建模、跨领域数据利用和迁移学习，提升房产交易多维度数据查询的准确性和预测能力。

附图说明

图1为一种基于房产交易多维度数据的数据查询方法及系统的步骤流程示意图；

图2为图1中步骤S2的详细实施步骤流程示意图；

图3为图1中步骤S3的详细实施步骤流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

为实现上述目的，请参阅图1至图3，一种基于房产交易多维度数据的数据查询方法及系统，所述方法包括以下步骤：

本发明实施例中，参考图1所述，为本发明一种基于房产交易多维度数据的数据查询方法及系统的步骤流程示意图，在本实例中，所述一种基于房产交易多维度数据的数据查询方法及系统包括以下步骤：

本发明实施例中，通过从相关机构、数据库或者其他数据源中获取房产交易数据。这可能包括房屋价格、交易日期、地理位置、面积等多个维度的信息，获得原始的房产交易数据。使用统计学方法或机器学习方法进行异常值检测，例如Z-score、箱线图、孤立森林等。标记检测到的异常值，创建异常标记数据集，识别原始房产交易数据中的异常值。对房产交易数据进行归一化，可能包括将数值特征缩放到一定的范围（比如0到1），处理缺失值，处理离散值等。这一步骤还可以生成归一化的房产交易数据，将原始房产交易数据进行归一化处理，以便在后续阶段更好地处理和分析数据。使用插值、回归、均值、中值等方法对异常数据进行修复。修复后得到修复后的房产交易归一化数据。使用标准差标准化方法，将数据转换为标准正态分布。这可以通过减去均值并除以标准差来实现，对房产交易归一化数据进行标准化。将修复后的数据进行标准化，得到标准房产交易数据。

本发明实施例中，通过将标准房产交易数据转换为图数据库中的节点和边，将每个房产交易作为一个节点，节点上包含交易的属性信息，比如价格、日期、地理位置等，创建边来表示房产之间的关系，例如，如果两个交易涉及相同的房产，可以在两个节点之间创建一条边。提高对节点的检索效率，加速图算法的执行，为房产交易节点创建索引，通常使用唯一标识符，以便快速检索，生成节点索引数据，记录节点标识符和对应的节点位置。将整个图数据分割为多个分区，以便在分布式系统上并行处理，使用图数据分区算法，将节点划分到不同的分区，考虑到节点之间的连接关系，以最小化分区之间的边。生成交易分区优化数据，记录节点所属的分区信息以及分区间的连接信息。将分区的图数据连接起来，形成完整的分布式图，使用网络连接算法，将分区间的节点连接起来，确保图的完整性，最终生成分布式房产交易网络图，该图可以在分布式系统上进行并行处理和分析。

本发明实施例中，通过利用分布式房产交易网络图进行建模，以捕捉节点之间的复杂关系，选择适当的图神经网络架构，如Graph Convolutional Network (GCN)、GraphSAGE等，输入为分布式房产交易网络图，输出为每个节点的特征向量。将房产交易数据中的其他关键特征（如价格、地理位置等）整合到图神经网络生成的特征向量中，形成综合的多维度特征向量，作为每个节点的表示。使用聚类算法，如K-means、DBSCAN等，对多维度特征向量进行聚类，生成房产交易聚类结果标签，每个节点被分配到一个聚类类别。使用聚类性能评估指标，如轮廓系数、互信息等，对生成的聚类结果进行评估，比较不同聚类算法或参数设置下的性能，选择最优的聚类模型。

本发明实施例中，通过收集来自不同领域的房产交易数据，确保数据具有多样性和广泛性，整理数据，包括价格、地理位置、房产特征等。收集用户查询需求数据，可能包括用户对房产的具体要求、预算等信息。使用预训练的图神经网络模型和聚类性能评估数据，作为基础模型，在此基础上，通过迁移学习的方法，针对新领域的数据进行微调，以适应新的数据分布，训练一个综合的迁移学习模型，能够在不同领域的房产交易数据中进行预测。将用户查询需求数据转换成模型可接受的格式，包括转换成特征向量，将特征向量输入到训练好的迁移学习模型中，进行预测，获取预测结果，可能包括预测的房产标签、价格范围等信息。

优选的，步骤S1包括以下步骤：

步骤S11：利用分布式爬虫对房产交易数据源进行数据抽取，获得原始房产交易数据；

步骤S12：根据预设的数据标准格式对原始房产交易数据进行数据结构转换处理，生成房产交易结构转换数据；

步骤S13：对房产交易结构转换数据进行异常值检测，确定房产交易结构转换数据的异常值检测结果为真时，则对相应的房产交易结构转换数据进行异常标记，生成异常标记数据集；确定房产交易结构转换数据的异常值检测结果为假时，则对相应的房产交易结构转换数据进行数据归一化，生成房产交易归一化数据；

步骤S14：对异常标记数据集进行数据质量问题识别，生成异常类型数据；根据异常类型数据对异常标记数据集进行数据修复，从而生成房产交易修复数据；

步骤S15：对房产交易修复数据进行数据归一化，生成房产交易归一化数据；基于Z-score标准化方法对房产交易归一化数据进行数据标准化，生成标准房产交易数据。

本发明通过利用分布式爬虫对房产交易数据源进行数据抽取，确保获取到全面、准确的原始房产交易数据，从而建立起数据分析和处理的基础。根据预设的数据标准格式对原始数据进行结构转换，有助于统一数据格式，提高数据的一致性和可比性。这有助于后续的数据分析和挖掘工作。通过对房产交易结构转换数据进行异常值检测，可以及时发现可能存在的错误或欺诈性交易。这有助于提高数据的质量和可靠性。对正常的房产交易结构转换数据进行归一化，可以消除数据之间的量纲影响，使得数据更易于比较和分析。这有助于提高模型的训练效果和结果解释性。对异常标记数据集进行质量问题识别并进行修复，有助于还原因异常而被标记的数据，提高整体数据的完整性。这对于后续的分析和决策制定至关重要。基于Z-score标准化方法对数据进行标准化，可以将数据转换为以标准正态分布为基础的分数，有助于在不同尺度的数据之间进行比较。这提高了数据的可解释性和模型的稳定性。

本发明实施例中，通过选择适合的分布式爬虫工具，如Scrapy、Apache Nutch等，以提高效率和处理大规模数据。确定需要抽取数据的房产交易数据源，可能是房产交易网站、政府数据发布平台等。配置爬虫，设定爬取频率、目标数据结构等参数。运行分布式爬虫，抽取原始房产交易数据。制定数据标准格式，包括字段定义、数据类型等。清洗原始数据，处理缺失值、格式不一致的数据等。将清洗后的数据按照预设的标准格式进行转换，形成房产交易结构转换数据。利用统计方法或机器学习模型进行异常值检测，如果异常值检测结果为真，标记相应数据并生成异常标记数据集，如果检测结果为假，进行下一步数据归一化。使用数据归一化方法，如Min-Max Scaling或Z-score标准化，以确保数据在一定范围内或符合标准正态分布。通过分析异常标记数据集，识别异常数据的质量问题，确定异常类型数据，根据异常类型数据，采取适当的修复策略，可以是填充缺失值、删除异常数据等，生成房产交易修复数据。对修复后的数据再次进行归一化，确保数据处理的一致性，使用Z-score标准化方法，将数据转换为标准正态分布，生成标准房产交易数据。

优选的，步骤S14包括以下步骤：

步骤S141：对异常标记数据集进行异常类型分类，生成异常类型分类数据集，其中异常类型分类包括数据格式异常类型、数据缺失异常类型、数据时间序列异常类型、地理位置数据异常类型和欺诈交易异常类型；

步骤S142：确定异常类型分类数据集为数据格式异常类型时，则对相应的异常类型分类数据进行异常格式转换修复，生成格式异常修复数据；

步骤S143：确定异常类型分类数据集为数据缺失异常类型时，则对相应的异常类型分类数据进行缺失率评估，生成缺失率评估数据；将缺失率评估数据和预设的缺失阈值进行对比，当缺失率评估数据大于或等于预设的缺失阈值时，则对缺失率评估数据对应的异常类型分类数据进行变量删除；当缺失率评估数据小于预设的缺失阈值时，则对缺失率评估数据对应的异常类型分类数据进行插值填充修复处理，从而生成缺失异常修复数据；

步骤S144：确定异常类型分类数据集为数据时间序列异常类型时，则根据时间序列分解技术对相应的异常类型分类数据进行季节性成分分解，生成季节性成分分解数据；基于趋势性时间序列模型对季节性成分分解数据进行数据趋势预测，生成数据趋势预测数据；对季节性成分分解数据进行历史数据收集，生成历史季节性分解数据；利用数据趋势预测数据和历史季节性分解数据对异常类型分类数据进行异常时间点校正，生成时序异常修复数据；

步骤S145：确定异常类型分类数据集为地理位置数据异常类型时，则通过地理编码服务对相应的异常类型分类数据进行异常地理位置信息验证，生成异常地理信息数据；对异常地理信息数据进行异常交易位置排除，生成地理异常修复数据；

步骤S146：确定异常类型分类数据集为欺诈交易异常类型时，则对相应的异常类型分类数据进行金额异常识别，生成异常金额数据；根据异常金额数据对异常类型分类数据进行异常交易模式识别，生成异常交易识别数据；利用交易异常值量化公式对异常金额数据和异常交易识别数据进行异常值检测，生成异常交易风险评估值；根据异常交易风险评估值对异常类型分类数据进行数据封禁，从而生成身份异常修复数据；

步骤S147：将格式异常修复数据、缺失异常修复数据、时序异常修复数据、地理异常修复数据和身份异常修复数据进行数据合并，生成房产交易修复数据。

本发明通过将异常数据进行分类，可以更好地理解数据异常的性质。这有助于为不同类型的异常采取特定的修复策略，提高修复的准确性。针对数据格式异常进行修复，有助于确保数据的一致性和规范性，提高数据质量。通过评估缺失率并应用相应的修复策略，可以减少数据缺失对分析和建模的影响，确保数据的完整性。通过季节性成分分解和趋势预测，有望更准确地修复时间序列数据中的异常，提高对时序数据的分析的可靠性。通过验证和排除异常地理位置信息，可以提高地理位置数据的准确性，有助于确保地理信息的真实性和一致性。通过识别和评估欺诈交易，可以提高数据的安全性和信任度。对异常交易进行封禁可以防止潜在的欺诈行为。将各个修复数据合并为一个完整的房产交易修复数据集，方便后续的分析和应用。

本发明实施例中，通过对异常标记数据集进行异常类型分类，生成异常类型分类数据集，包括以下异常类型：数据格式异常类型、数据缺失异常类型、数据时间序列异常类型、地理位置数据异常类型、欺诈交易异常类型。当异常类型分类数据集为数据格式异常类型时：对异常类型分类数据进行异常格式转换修复，生成格式异常修复数据。当异常类型分类数据集为数据缺失异常类型时：对异常类型分类数据进行缺失率评估，生成缺失率评估数据。将缺失率评估数据与预设的缺失阈值进行对比：如果大于或等于预设的缺失阈值，则对相应的异常类型分类数据进行变量删除。如果小于预设的缺失阈值，则对相应的异常类型分类数据进行插值填充修复处理，生成缺失异常修复数据。当异常类型分类数据集为数据时间序列异常类型时：使用时间序列分解技术对异常类型分类数据进行季节性成分分解，生成季节性成分分解数据。基于趋势性时间序列模型对季节性成分分解数据进行数据趋势预测，生成数据趋势预测数据，对季节性成分分解数据进行历史数据收集，生成历史季节性分解数据。利用数据趋势预测数据和历史季节性分解数据对异常类型分类数据进行异常时间点校正，生成时序异常修复数据。当异常类型分类数据集为地理位置数据异常类型时：通过地理编码服务对异常类型分类数据进行异常地理位置信息验证，生成异常地理信息数据。对异常地理信息数据进行异常交易位置排除，生成地理异常修复数据。当异常类型分类数据集为欺诈交易异常类型时：对相应的异常类型分类数据进行金额异常识别，生成异常金额数据。根据异常金额数据对异常类型分类数据进行异常交易模式识别，生成异常交易识别数据。利用交易异常值量化公式对异常金额数据和异常交易识别数据进行异常值检测，生成异常交易风险评估值。根据异常交易风险评估值对异常类型分类数据进行数据封禁，生成身份异常修复数据。将格式异常修复数据、缺失异常修复数据、时序异常修复数据、地理异常修复数据和身份异常修复数据进行数据合并，生成房产交易修复数据。

优选的，步骤S145包括以下步骤：

步骤S1451：确定异常类型分类数据集为地理位置数据异常类型时，则通过地理编码服务对相应的异常类型分类数据进行地理信息提取，生成地理信息编码异常数据；

步骤S1452：对地理信息编码异常数据进行异常地段锁定，生成异常地段范围数据；对异常地段范围数据进行房产位置坐标标定，生成异常地段房产坐标数据；

步骤S1453：利用GPS对地理信息编码异常数据进行真实地理地段锁定，生成真实地段范围数据；对真实地段范围数据进行房产位置坐标标定，生成真实地段房产坐标数据；

步骤S1464：将异常地段房产坐标数据和真实地段房产坐标数据进行位置信息比对，生成房产地段修正数据；通过房产地段修正数据对异常类型分类数据进行位置信息修复，从而生成地理异常修复数据。

本发明通过确定异常类型分类数据集为地理位置数据异常类型，可以明确处理的数据集中存在地理位置数据的异常类型。这可能包括由于输入错误、缺失数据或其他原因而引起的异常。利用地理编码服务，对异常类型的数据进行处理，提取准确的地理信息，并生成地理信息编码的异常数据。这有助于将非结构化的地理位置数据转化为更易处理的编码形式。对地理信息编码异常数据进行异常地段锁定，生成异常地段范围数据，可以确定异常地段，即数据中可能存在问题的特定地理区域。在确定异常地段后，对该地段范围的数据进行处理，标定该地段内各个房产的位置坐标，生成异常地段房产坐标数据。这有助于进一步分析和定位潜在的问题。使用GPS数据对之前的地理编码异常数据进行验证，以锁定其真实的地理地段。在确定真实地段后，对该地段范围的数据进行处理，标定该地段内各个房产的位置坐标，生成真实地段房产坐标数据。这有助于建立更准确的基准数据。通过比对异常地段和真实地段的房产坐标数据，生成修正数据，记录位置信息的差异。利用修正数据，对异常类型的分类数据进行修复，使得地理位置信息更为准确。这有助于提高整体数据集的质量和准确性。

本发明实施例中，通过选择适用的地理编码服务，如Google Maps GeocodingAPI、百度地图API等，针对异常类型的分类数据，通过地理编码服务提取地理信息，并生成地理信息编码异常数据。利用地理信息编码异常数据，使用地理信息系统（GIS）工具或相关库进行异常地段的锁定，在锁定的异常地段范围内，对房产位置进行坐标标定，生成异常地段房产坐标数据。利用GPS技术对地理信息编码异常数据进行真实地理地段的锁定，在真实地段范围内，使用GPS坐标标定房产位置，生成真实地段房产坐标数据。将异常地段房产坐标数据和真实地段房产坐标数据进行位置信息比对，通过算法（例如，欧几里得距离计算）计算坐标之间的差异，生成房产地段修正数据。利用房产地段修正数据，对异常类型分类数据进行位置信息的修复，可以采用插值、平均值等方法，根据修正数据调整异常数据的地理位置信息，生成地理异常修复数据。

优选的，步骤S146中的交易异常值量化公式具体如下：

；

式中，R表示为异常交易风险评估值，α表示为控制响应速度的参数，β表示为交易金额权重参数，γ表示为对历史交易积分项的重视程度系数，δ表示为控制积分项响应速度的参数，x(s)表示为最大时间s时的交易金额，x(u)表示为时间u时的最大交易金额，du表示为对时间u的微分，ds表示为对最大交易时间点s的微分，u表示为交易时间点，s表示为最大交易时间点，μ表示为交易异常值量化调整值。

本发明构建了一种交易异常值量化公式，公式的原理是通过对交易金额数据进行响应式的积分和加权计算，结合历史交易的积分项，来评估当前时间点的异常交易风险。公式中的指数衰减项e^-αs用于表示随着时间的推移，对交易金额的响应逐渐减弱。通过对历史交易的积分项进行加权计算，可以考虑过去交易对当前风险的影响。根据控制响应速度的参数与以上各参数之间的相互关系构成了一种函数关系：

；

通过调节控制响应速度的参数。较大的α值会导致响应速度较快，对异常交易的影响更敏感，有助于快速检测出异常交易。交易金额权重参数β。通过乘以交易金额x(s)，调整交易金额对风险评估的影响程度。较大的β值会增加交易金额的权重，使较大的交易金额对风险评估有更大的贡献。对历史交易积分项的重视程度系数。通过乘以历史交易的积分项，控制对历史交易的影响程度。较大的γ值会增加对历史交易的重视，使历史交易对风险评估有更大的贡献。控制积分项响应速度的参数。较大的δ值会使积分项的响应速度更快，即更快地对历史交易进行积分计算，有助于及时更新历史交易的影响。通过交易异常值量化调整值μ，用于校正由于实际系统的复杂性和非理想性而引起的误差和偏差。它可以纠正公式中的理论假设与实际系统之间的差异，提高交易异常值量化的准确性和可靠性，更加准确的生成异常交易风险评估值R，同时公式中的控制积分项响应速度的参数、对历史交易积分项的重视程度系数等参数可以根据实际情况进行调整，从而适应不同的交易异常值量化场景，提高了算法的适用性和灵活性。在使用本领域常规的交易异常值量化公式时，可以得到异常交易风险评估值，通过应用本发明提供的交易异常值量化公式，可以更加精确的计算出异常交易风险评估值。

优选的，步骤S2包括以下步骤：

步骤S21：将标准房产交易数据进行节点-边数据转换，生成节点-边关系数据；

步骤S22：利用分布式数据库对节点-边关系数据进行节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；

步骤S23：根据节点索引数据对房产交易节点进行边关系映射，生成房产交易边关系映射数据；

步骤S24：将房产交易边关系映射数据按照预设的分区规则进行图数据分区，生成交易分区图数据；将交易分区图数据进行查询和存储性能测试，从而生成交易分区性能测试数据；基于交易分区性能测试数据对交易分区图数据进行分区优化，生成交易分区优化数据；

步骤S25：将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图。

本发明通过将标准房产交易数据转换为节点-边关系数据有助于更好地表示房产之间的关系，为后续的图数据处理和分析提供了基础，利用分布式数据库进行节点的创建和索引建立有助于提高数据检索和查询的效率，尤其是在处理大规模数据时，分布式数据库能够提供更好的横向扩展性。根据节点索引数据进行边关系映射有助于建立节点之间的关联，使得图数据的结构更为清晰，便于后续的分析和挖掘。按照预设的分区规则进行图数据分区有助于提高查询性能，尤其是在分布式环境下，合理的数据分区能够降低通信开销。进行查询和存储性能测试有助于评估系统在处理房产交易图数据时的效率，为系统性能的改进提供指导。基于性能测试数据进行分区优化可以进一步提高系统的响应速度和吞吐量，优化数据分布以适应实际查询需求。将交易分区优化数据进行网络连接，生成分布式房产交易网络图有助于全面理解和可视化房产交易关系，从而提供更直观的信息展示和分析手段。

作为本发明的一个实例，参考图2所示，在本实例中所述步骤S2包括：

本发明实施例中，通过节点通常代表实体，比如房产、交易参与者（卖方、买方）、交易时间等，边代表实体之间的关系，比如房产和卖方之间的交易关系。确保原始数据的质量和一致性，处理缺失值和异常值，将数据格式标准化，确保节点和边的属性一致。设计节点和边的属性，根据业务需求选择合适的属性，确定节点和边的类型，例如，房产、交易参与者等是节点的类型，交易关系是边的类型。选择适当的图数据库（如Neo4j）或图处理框架（如Apache Spark GraphX）来存储和处理图数据。将清理和预处理后的数据导入图数据库或图处理框架中，确保数据的正确性和完整性。在图数据库中，创建节点和边的模型，定义它们的属性和关系，在图处理框架中，使用合适的API定义节点和边的关系。利用图数据库或图处理框架提供的查询语言或API进行数据分析和探索，通过查询节点和边的关系，找到有关房产交易的模式和洞察，利用可视化工具展示生成的节点-边关系数据。

本发明实施例中，通过选择适合需求的分布式数据库，如Cassandra、MongoDB、HBase等。确保它能够处理大规模数据和支持图数据模型。根据业务需求，在数据库中设计节点模型，定义房产交易节点的属性。确保节点模型与之前设计的图模型一致。将节点-边关系数据导入分布式数据库。这可能需要根据数据库的特性和支持的导入工具来进行调整。利用数据库的分布式特性，同时创建房产交易节点。这可以通过批量插入、并行处理等技术实现。对房产交易节点的关键属性建立索引，以加速数据查询。确保选择适当的索引类型，比如单一字段索引或复合索引，以满足查询需求。利用数据库的分布式计算功能，确保查询和索引建立的性能在整个集群上是均衡的。根据实际性能需求和数据库的特性，进行必要的性能调优。这可能包括调整分片设置、优化查询语句、增加节点等。

本发明实施例中，通过从分布式数据库中获取已经建立的节点索引数据，这些索引数据包含了房产交易节点的标识符和关键属性。定义房产交易边关系映射模型，明确边的类型以及边上可能包含的属性。遍历节点索引数据，通过关联关系或其他方式，映射节点之间的边关系。这可能涉及到对节点标识符的匹配和关联。根据映射得到的边关系，创建房产交易边关系映射数据。这可以是一个包含边的数据结构，其中包括起始节点、目标节点以及边的属性信息。将生成的房产交易边关系映射数据导入分布式数据库中，确保数据的一致性和完整性。如果边关系数据的查询性能是关键问题，可以考虑对边的属性建立适当的索引。对生成的边关系数据进行验证，确保节点和边的关系映射正确。实施质量控制措施，处理可能存在的错误或不一致性。根据实际性能需求，进行必要的性能调优，可能包括优化查询语句、调整分布式计算参数等。

本发明实施例中，通过定义图数据的分区规则，考虑如何按照节点或边的属性、标识符等进行数据分区。这可以是基于哈希函数、范围划分、均匀分配等策略。根据预设的分区规则，对房产交易边关系映射数据进行分区。确保数据分布均匀，同时满足预期的分区规则。设计性能测试用例和指标，包括查询响应时间、数据加载时间、数据写入速度等。对交易分区图数据进行查询和存储性能测试。执行典型查询并测量其响应时间，同时进行大规模数据的加载和写入测试，以评估性能表现。记录查询和存储性能测试的结果，包括各种负载下的响应时间、吞吐量等性能指标。这些数据将用于后续的分区优化。基于性能测试数据进行分区优化。可以根据测试结果调整分区规则，重新分配数据，或者采取其他优化措施以提高性能。对优化后的交易分区图数据进行再次性能测试，验证优化效果。确保优化措施能够改善查询和存储性能。记录优化前后的性能指标变化，并对比评估性能的改善程度。这些数据将用于未来的参考和决策。

本发明实施例中，通过确保所有交易分区优化数据已经准备就绪，包括经过分区优化的数据集合，选择适当的网络连接方式。这可能涉及使用分布式数据库系统、图数据库系统或其他适用的技术。若数据存储在多个节点或服务器上，使用分布式数据库系统（例如，Hadoop、Cassandra、HBase等）进行数据连接和管理。若数据结构更适合图形式存储，考虑使用图数据库（如Neo4j、Amazon Neptune等）进行网络连接和图形数据的处理。将经过优化的各个分区的数据集成到一个整体网络图中。这可能需要数据合并、链接或者图结构的重新构建，根据业务需求和数据结构，确定如何将这些分区优化的数据连接起来形成网络图，根据连接方案，使用相应的技术和工具，将分布式房产交易数据连接成一个完整的网络图。确保数据连接后的网络图与原始数据的一致性，以及分区优化的结果被正确地整合到了网络图中。对生成的分布式房产交易网络图进行性能测试，以验证其查询、数据加载和存储等方面的性能，根据性能测试结果进行必要的优化调整，以提高分布式网络图的性能和可扩展性。

优选的，步骤S3包括以下步骤：

步骤S31：根据分布式房产交易网络图进行图神经网络模型建模，生成房产交易图神经网络模型；对房产交易图神经网络模型进行节点特征关系捕获，生成房产交易节点特征数据；

步骤S32：基于房产交易节点特征数据对房产交易图神经网络模型进行多维度特征向量提取，得到房产交易维度特征向量；

步骤S33：对房产交易维度特征向量进行数据降维，生成房产交易降维特征向量；利用深度聚类算法对房产交易降维特征向量进行聚类标签处理，生成房产交易聚类结果标签；对房产交易聚类结果标签进行混乱标签剔除，从而生成房产交易优化数据；

步骤S34：利用聚类性能评估公式对房产交易优化数据进行聚类性能评估，生成房产交易聚类性能评估数据。

本发明通过图神经网络，能够捕获房产交易网络图中节点之间的复杂关系，提高对整个网络结构的理解，生成的房产交易图神经网络模型有助于深入理解房产交易的复杂关系，为后续步骤提供有力的特征基础。基于节点特征数据提取多维度特征向量，使得每个节点都能以更丰富的特征向量形式进行表示，获得更为细致的特征向量能够捕获更多关于每个节点的信息，为后续的数据降维和聚类提供更具信息量的输入。通过对多维度特征向量进行降维，减少特征的维度，然后利用深度聚类算法对数据进行聚类，降维可以简化模型，提高计算效率，而深度聚类有助于发现数据中的潜在模式和群体，生成更有意义的聚类结果。对聚类结果标签进行处理，剔除混乱标签，生成优化数据，剔除混乱标签有助于提高聚类的准确性，确保生成的房产交易优化数据更为可靠和有实际意义。利用聚类性能评估公式对优化数据进行评估，量化聚类的准确性和性能，提供对聚类结果的客观评估，帮助确认模型的有效性，并为进一步改进提供指导。

作为本发明的一个实例，参考图3所示，在本实例中所述步骤S3包括：

本发明实施例中，通过获取分布式房产交易网络图的数据，包括节点和边的信息。每个节点可能代表一个房产交易记录，而边则表示节点之间的关系，例如交易关系。选择适当的图神经网络结构，如Graph Convolutional Network（GCN）、GraphSAGE（Graph Sampleand Aggregated）或Gated Graph Neural Network（GGNN）等。按照选定的模型结构，构建网络层，考虑网络的输入和输出。为每个节点和边赋予初始特征，这些特征可以包括节点的属性信息（如交易金额、地理位置等）。利用嵌入技术将节点和边的特征映射到低维空间，以便神经网络更好地学习图的结构和特征。将准备好的数据输入到图神经网络中，定义损失函数（通常包括节点分类任务或图级别任务的损失）。利用反向传播算法和优化器（如Adam、SGD等）来更新模型的权重，以最小化损失函数。在训练过程中，图神经网络会通过学习节点之间的连接和邻接关系，捕获节点之间的特征关系。通过这个过程，每个节点会得到一个经过学习的特征向量，反映了其在整个网络中的位置和重要性。从训练好的图神经网络模型中提取节点特征数据，这些特征数据可以用于后续的数据处理和分析。

本发明实施例中，通过确保有已经训练好的图神经网络模型，并可以利用该模型提取节点特征数据。使用已训练的图神经网络模型，将每个房产交易节点的特征提取出来。这些特征可以是模型学到的节点嵌入或者其他高维特征。将每个节点的特征组合成一个多维度特征向量。这可以是直接将节点的嵌入连接在一起，或者对节点特征进行某种操作（如拼接、求和、平均等）以得到一个更丰富的特征表示。对得到的多维度特征向量进行标准化或归一化，以确保各个维度的特征具有相似的尺度。这有助于提高后续模型训练的稳定性和收敛速度。对得到的房产交易维度特征向量进行验证和分析。可以通过可视化、统计分析等手段来了解每个维度的重要性和特点。

本发明实施例中，通过选择一种降维算法，例如主成分分析（PCA）或 t-分布邻域嵌入（t-SNE），以减少房产交易维度特征向量的维度。这有助于提高计算效率并保留关键信息。应用选定的降维算法，将每个房产交易维度特征向量转换为较低维度的向量，即降维特征向量。选择一种深度聚类算法，例如基于自编码器的聚类、谱聚类等。这些算法可以在降维后的特征空间中发现潜在的聚类结构。使用选定的深度聚类算法对降维后的特征向量进行聚类，生成每个房产交易的聚类标签。分析聚类结果，检测可能的混乱标签。这可以通过观察类别间的相似性、聚类内的紧密度等来实现。对于混乱的标签，可以考虑采用一些启发式方法或者再次调整聚类算法的参数。基于混乱标签剔除的结果，重新组织原始数据，得到房产交易的优化数据集。这个优化数据集应当反映更准确的聚类结构，提高后续任务的性能。

本发明实施例中，通过选择适当的指标来评估聚类性能。常用的指标包括轮廓系数（Silhouette Coefficient）、Calinski-Harabasz指数、Davies-Bouldin指数等。每个指标都有其优缺点，因此最好综合考虑多个指标。对于轮廓系数，计算每个数据点的轮廓系数，并求取平均值。对于Calinski-Harabasz指数和Davies-Bouldin指数，根据相应的公式进行计算。根据选择的聚类性能评估指标，应用相应的公式计算聚类性能。以下是一些指标的计算方法示例：轮廓系数（Silhouette Coefficient）：对于每个数据点，计算其与同簇其他数据点的平均距离（a）以及与最近不同簇的所有数据点的平均距离（b），然后计算轮廓系数为 (b - a) / max(a, b)。Calinski-Harabasz指数：计算簇内离散度和簇间离散度的比值，指数越高表示聚类效果越好。Davies-Bouldin指数：对于每个簇，计算其与最近簇的平均相似度，指数越低表示聚类效果越好。将计算得到的聚类性能指标应用于优化数据集，生成房产交易聚类性能评估数据。这些数据可以包括每个簇的指标值、整体的聚类性能分数等。

优选的，步骤S34中的聚类性能评估公式具体如下：

；

式中，Q表示为聚类性能评估系数，a_i表示为样本i与同一簇内其他所有样本的平均距离，b_i表示为样本i与最近邻不属于同一簇的样本的平均距离，i表示为样本个数索引，n表示为房产交易优化数据群簇数量，ε表示为聚类性能评估异常修正量。

本发明构建了一种聚类性能评估公式，公式的原理是比较每个样本在所属簇内的紧密度（通过a_i衡量）和与其他簇的分离度（通过b_i衡量）。通过计算b_i-a_i的差异，并进行归一化（除以较大的a_i和b_i，可以得到聚类结果的质量度量Q。根据样本i与同一簇内其他所有样本的平均距离与以上各参数之间的相互关系构成了一种函数关系：

；

通过调节样本i与同一簇内其他所有样本的平均距离。它衡量了样本在自己所属簇内的紧密度，值越小表示样本与同簇内其他样本越接近。样本i与最近邻不属于同一簇的样本的平均距离。它衡量了样本与其他簇的分离度，值越大表示样本与其他簇之间的距离越远。房产交易优化数据的群簇数量n表示聚类算法将数据划分为的簇的数量。通过聚类性能评估异常修正量ε，用于校正由于实际系统的复杂性和非理想性而引起的误差和偏差。它可以纠正公式中的理论假设与实际系统之间的差异，提高聚类性能评估的准确性和可靠性，更加准确的生成聚类性能评估系数Q，同时公式中的样本个数索引、房产交易优化数据群簇数量等参数可以根据实际情况进行调整，从而适应不同的聚类性能评估场景，提高了算法的适用性和灵活性。在使用本领域常规的聚类性能评估公式时，可以得到聚类性能评估系数，通过应用本发明提供的聚类性能评估公式，可以更加精确的计算出聚类性能评估系数。该公式综合考虑了簇内的紧密度和簇间的分离度，从而提供了对聚类结果质量的综合评估。较高的Q值表示聚类结果更好，即样本在自己的簇内距离较近且与其他簇之间的距离较远。通过引入异常修正量ε，可以对异常情况进行修正，确保评估结果的稳定性和可靠性。

优选的，步骤S4包括以下步骤：

步骤S41：获取跨领域房产交易数据和用户查询需求数据；

步骤S42：将跨领域房产交易数据和房产交易聚类性能评估数据进行数据合并，生成跨领域房产交易数据集；将跨领域房产交易数据集进行数据集划分，生成模型训练集和模型测试集；基于模型训练集进行预测模型训练，生成源领域模型参数；根据源领域模型参数和模型测试集进行迁徙学习模型构建，生成房产交易迁移学习模型；

步骤S43：对房产交易迁移学习模型进行模型优化，生成房产交易优化迁徙学习模型；将用户查询需求数据导入至房产交易迁移学习模型中进行查询预测，生成房产交易预测结果数据。

本发明通过从不同领域收集了房产交易数据和用户的查询需求数据，跨领域的数据收集有助于建立更全面、多样化的数据集，提供更广泛的信息基础，从而增强模型的泛化能力和适应性。将跨领域房产交易数据和聚类性能评估数据进行合并，生成跨领域房产交易数据集。然后，划分数据集为模型训练集和模型测试集，并基于模型训练集进行预测模型训练。数据合并可以增加数据集的信息密度，提供更多特征用于模型训练，数据集划分有助于评估模型的泛化性能，使用聚类性能评估数据进行训练，可以引入更多关于数据结构和模式的信息，提高模型的准确性。对房产交易迁移学习模型进行优化，然后将用户查询需求数据导入模型进行查询预测，生成房产交易预测结果数据。模型优化有助于提高模型的性能，使其更适应跨领域的数据，查询预测结果数据可为用户提供个性化的房产交易建议，提高用户体验。通过迁移学习，模型可以利用源领域的知识，更有效地适应目标领域，提高模型的性能和效果，结合跨领域数据和聚类性能评估，可以提高模型的全面性，使其对多样性的数据更具适应性。

本发明实施例中，通过从不同领域的房产交易平台、政府数据库或其他相关数据源中获取房产交易数据，通过用户调查、网络爬虫等方式收集用户查询需求数据。对跨领域房产交易数据和房产交易聚类性能评估数据进行合并，处理缺失值和异常值，可以采用标准化、归一化等方法对数据进行预处理，将合并后的数据集划分为模型训练集和模型测试集，可以采用随机划分或者按时间划分等方式，使用模型训练集进行预测模型训练，可以选择合适的机器学习算法，如深度学习、支持向量机等，生成源领域模型参数。使用源领域模型参数和模型测试集，进行迁徙学习模型的构建，可以采用迁移学习的算法，如领域自适应、知识蒸馏等。对房产交易迁移学习模型进行优化，可以采用调参、正则化等方法，通过交叉验证等技术来评估模型性能。将用户查询需求数据导入房产交易迁移学习模型中进行查询预测，生成房产交易预测结果数据。对生成的预测结果进行性能评估，可以使用各种指标如准确率、召回率等，根据性能评估结果，进行必要的模型调整和迭代，以提高模型的准确性和泛化能力。

在本说明书中，提供了一种基于房产交易多维度数据的数据查询系统，用于执行上述所述的基于房产交易多维度数据的数据查询方法，该基于房产交易多维度数据的数据查询系统包括：

异常检测模块，用于获得原始房产交易数据；对原始房产交易数据进行异常值检测，生成异常标记数据集和房产交易归一化数据；对异常标记数据集进行数据修复，从而生成房产交易归一化数据；对房产交易归一化数据进行数据标准化，生成标准房产交易数据；

图网络连接模块，用于对标准房产交易数据进行边节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；根据节点索引数据对房产交易节点进行图数据分区，生成交易分区优化数据；将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图。

聚类标签模块，用于根据分布式房产交易网络图进行图神经网络模型建模，生成房产交易图神经网络模型；对房产交易图神经网络模型进行多维度特征向量标签处理，生成房产交易聚类结果标签；对房产交易聚类结果标签进行聚类性能评估，生成房产交易聚类性能评估数据；

查询预测模块，用于获取跨领域房产交易数据和用户查询需求数据；将跨领域房产交易数据和房产交易聚类性能评估数据进行预测模型训练，生成房产交易迁移学习模型；将用户查询需求数据导入至房产交易迁移学习模型中进行查询预测，生成房产交易预测结果数据。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于房产交易多维度数据的数据查询方法，其特征在于，包括以下步骤：

步骤S2：对标准房产交易数据进行边节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；根据节点索引数据对房产交易节点进行图数据分区，生成交易分区优化数据；将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图；步骤S2包括以下步骤：

步骤S25：将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图；

步骤S3：根据分布式房产交易网络图进行图神经网络模型建模，生成房产交易图神经网络模型；对房产交易图神经网络模型进行多维度特征向量标签处理，生成房产交易聚类结果标签；对房产交易聚类结果标签进行聚类性能评估，生成房产交易聚类性能评估数据；步骤S3包括以下步骤：

步骤S34：利用聚类性能评估公式对房产交易优化数据进行聚类性能评估，生成房产交易聚类性能评估数据；

2.根据权利要求1所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S1包括以下步骤：

3.根据权利要求2所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S14包括以下步骤：

4.根据权利要求3所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S145包括以下步骤：

5.根据权利要求4所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S146中的交易异常值量化公式如下所示：

；

6.根据权利要求1所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S34中的聚类性能评估公式如下所示：

；

7.根据权利要求1所述的基于房产交易多维度数据的数据查询方法，其特征在于，步骤S4包括以下步骤：

步骤S41：获取跨领域房产交易数据和用户查询需求数据；

8.一种基于房产交易多维度数据的数据查询系统，其特征在于，用于执行如权利要求1所述的基于房产交易多维度数据的数据查询方法，该基于房产交易多维度数据的数据查询系统包括：

图网络连接模块，用于对标准房产交易数据进行边节点创建，生成房产交易节点；对房产交易节点进行索引建立，生成节点索引数据；根据节点索引数据对房产交易节点进行图数据分区，生成交易分区优化数据；将交易分区优化数据进行网络连接，从而生成分布式房产交易网络图；