CN117252108A - 基于语义完整性的数据合理性验证方法、系统及存储介质 - Google Patents

基于语义完整性的数据合理性验证方法、系统及存储介质 Download PDF

Info

Publication number
CN117252108A
CN117252108A CN202311491642.1A CN202311491642A CN117252108A CN 117252108 A CN117252108 A CN 117252108A CN 202311491642 A CN202311491642 A CN 202311491642A CN 117252108 A CN117252108 A CN 117252108A
Authority
CN
China
Prior art keywords
data
model
city
integrity
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311491642.1A
Other languages
English (en)
Inventor
汤伊琼
蔡颖
陈永谦
席芳
谢正坚
倪丽君
覃振东
欧阳卫星
黎杰
王思超
温广标
亓幸子
陈航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cccc Smart City Ecological Development Guangzhou Co ltd
CCCC FHDI Engineering Co Ltd
Original Assignee
Cccc Smart City Ecological Development Guangzhou Co ltd
CCCC FHDI Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cccc Smart City Ecological Development Guangzhou Co ltd, CCCC FHDI Engineering Co Ltd filed Critical Cccc Smart City Ecological Development Guangzhou Co ltd
Priority to CN202311491642.1A priority Critical patent/CN117252108A/zh
Publication of CN117252108A publication Critical patent/CN117252108A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/13Architectural design, e.g. computer-aided architectural design [CAAD] related to design of buildings, bridges, landscapes, production plants or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Pure & Applied Mathematics (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于语义完整性的数据合理性验证方法、系统及存储介质,构建基于数字孪生的城市模拟模型;获取所述模型中动态数据与静态数据;基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;基于所述数据完整度与数据合理度生成数据调整方案。本发明能够充分利用模型中的语义信息,进行数据一致性和完整性的校验,提高模型的准确性和稳定性。

Description

基于语义完整性的数据合理性验证方法、系统及存储介质
技术领域
本发明涉及数据分析领域,更具体的,涉及一种基于语义完整性的数据合理性验证方法、系统及存储介质。
背景技术
随着信息技术的发展,数字孪生技术正在各领域得到广泛应用,提供了实体与数字世界之间的桥梁。然而,由于数字孪生系统模型涉及多元、复杂的数据,如何准确且高效地验证模型数据的合理性,确保其正确反映实体世界的状态,一直是业界面临的挑战。特别是在城市基础设施建设等复杂环境中,数据的一致性和准确性对模型的有效性起着决定性作用。
因此,目前亟需一种基于语义完整性的数据合理性验证方法。
发明内容
本发明克服了现有技术的缺陷,提出了一种基于语义完整性的数据合理性验证方法、系统及存储介质。
本发明第一方面提供了一种基于语义完整性的数据合理性验证方法,包括:
构建基于数字孪生的城市模拟模型;
获取所述模型中动态数据与静态数据;
基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
基于所述数据完整度与数据合理度生成数据调整方案。
本方案中,所述构建基于数字孪生的城市模拟模型,具体为:
获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
基于所述城市信息进行可视化建模,形成城市模型;
根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
本方案中,所述获取所述模型中动态数据与静态数据,具体为:
通过目标城市内的监控装置获取城市动态数据;
基于城市模拟模型,获取城市静态数据;
所述城市静态数据包括城市道路、城市隧道与城市站台的规模、形状、位置信息;
所述动态数据包括在城市各个道路中的车流量、人流量、车辆类型统计数据、人流分布、车辆分布信息。
本方案中,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,之前包括:
构建基于CNN算法的语义分析模型;
从系统数据库中获取历史采集城市数据;
将所述历史采集城市数据按照预设比例划分训练数据集、验证数据集、测试数据集;
将所述训练数据集、验证数据集、测试数据集导入语义分析模型进行循环训练,直至语义分析准确度达到预设准确度。
本方案中,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,具体为:
获取所述动态数据与静态数据;
将所述动态数据与静态数据进行数据整合形成城市监控数据;
将所述城市监控数据进行文本数据格式转化,得到文本大数据;
将所述文本大数据进行基于HMM的分词法进行分词处理,将分词后的文本大数据导入语义分析模型进行语义分析并根据语义关系进行基于关系、实体、属性的数据提取,并得到关系数据、实体数据、属性数据;
根据所述关系数据、实体数据、属性数据进行语义关系分析并基于图结构构建城市知识图谱。
本方案中,所述在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度,具体为:
在一个预设时间段内,实时获取模型数据;
所述模型数据包括城市动态数据与城市静态数据;
将所述模型数据进行文本数据格式转化与分词处理,得到实时文本数据;
将所述实时文本数据导入语义分析模型进行基于关系、实体、属性分析,并得到实时文本数据的实体、关系、属性数据;
将所述实时文本数据的实体、关系、属性数据导入城市知识图谱,进行基于实体数据的检索与分析,得到基于实体数据的完整度与对应缺失实体数据;
根据实时文本数据的关系、属性数据与城市知识图谱的关系、属性数据进行对比分析并进行数据合理性验证,得到数据合理度与异常数据区域。
本方案中,所述基于所述数据完整度与数据合理度生成数据调整方案,具体为:
获取城市任务分析需求信息;
对城市任务分析需求信息进行文本数据转化并导入语义分析模型进行语义分析并得到任务需求数据报表;
所述任务需求数据报表包括城市任务分析需求信息对应的需求数据类型、需求数据优先级信息;
根据所述任务需求数据报表、完整度与对应缺失实体数据、数据合理度与异常数据区域,对模型数据中各个实体数据进行缺失数据与异常数据的调控分析,结合任务需求数据报表进行需求数据的优先级分析,得到缺失数据与异常数据的调控方案。
本发明第二方面还提供了一种基于语义完整性的数据合理性验证系统,该系统包括:存储器、处理器,所述存储器中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被所述处理器执行时实现如下步骤:
构建基于数字孪生的城市模拟模型;
获取所述模型中动态数据与静态数据;
基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
基于所述数据完整度与数据合理度生成数据调整方案。
本方案中,所述构建基于数字孪生的城市模拟模型,具体为:
获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
基于所述城市信息进行可视化建模,形成城市模型;
根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被处理器执行时,实现如上述任一项所述的基于语义完整性的数据合理性验证方法的步骤。
本发明公开了一种基于语义完整性的数据合理性验证方法、系统及存储介质,构建基于数字孪生的城市模拟模型;获取所述模型中动态数据与静态数据;基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;基于所述数据完整度与数据合理度生成数据调整方案。本发明能够充分利用模型中的语义信息,进行数据一致性和完整性的校验,提高模型的准确性和稳定性。
附图说明
图1示出了本发明一种基于语义完整性的数据合理性验证方法的流程图;
图2示出了本发明城市模拟模型构建流程图;
图3示出了本发明语义分析模型构建流程图;
图4示出了本发明一种基于语义完整性的数据合理性验证系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于语义完整性的数据合理性验证方法的流程图。
如图1所示,本发明第一方面提供了一种基于语义完整性的数据合理性验证方法,包括:
S102,构建基于数字孪生的城市模拟模型;
S104,获取所述模型中动态数据与静态数据;
S106,基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
S108,在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
S110,基于所述数据完整度与数据合理度生成数据调整方案。
图2示出了本发明城市模拟模型构建流程图。
根据本发明实施例,所述构建基于数字孪生的城市模拟模型,具体为:
S202,获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
S204,基于所述城市信息进行可视化建模,形成城市模型;
S206,根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
S208,将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
需要说明的是,所述城市模型具体为用于对目标城市进行数据可视化,该模型包括地图模型,所述交通模型具体为用于数据处理与分析,两者相辅相成,实现可视化与数字孪生的模型功能。
根据本发明实施例,所述获取所述模型中动态数据与静态数据,具体为:
通过目标城市内的监控装置获取城市动态数据;
基于城市模拟模型,获取城市静态数据;
所述城市静态数据包括城市道路、城市隧道与城市站台的规模、形状、位置信息;
所述动态数据包括在城市各个道路中的车流量、人流量、车辆类型统计数据、人流分布、车辆分布信息。
需要说明的是,所述城市站台即城市内的各种交通中转站,例如车站、高铁站等,其人流量与车流量的数据能够反映城市交通状况。所述动态数据包括在城市各个道路中,各个道路包括城市道路、城市隧道与城市站台的道路。所述监控装置包括分布于城市中的视频监控、人流车流监控设备等装置。
图3示出了本发明语义分析模型构建流程图。
根据本发明实施例,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,之前包括:
S302,构建基于CNN算法的语义分析模型;
S304,从系统数据库中获取历史采集城市数据;
S306,将所述历史采集城市数据按照预设比例划分训练数据集、验证数据集、测试数据集;
S308,将所述训练数据集、验证数据集、测试数据集导入语义分析模型进行循环训练,直至语义分析准确度达到预设准确度。
需要说明的是,所述历史采集城市数据为一种具有一定标准的历史数据,包括动态、静态数据,用于对语义模型进行训练。语义分析算法中,CNN为一种能够进行自学习与拥有高智能度的模型算法,通过CNN算法能够对文本进行精准的语义分析与知识数据提取。
根据本发明实施例,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,具体为:
获取所述动态数据与静态数据;
将所述动态数据与静态数据进行数据整合形成城市监控数据;
将所述城市监控数据进行文本数据格式转化,得到文本大数据;
将所述文本大数据进行基于HMM的分词法进行分词处理,将分词后的文本大数据导入语义分析模型进行语义分析并根据语义关系进行基于关系、实体、属性的数据提取,并得到关系数据、实体数据、属性数据;
根据所述关系数据、实体数据、属性数据进行语义关系分析并基于图结构构建城市知识图谱。
需要说明的是,所述城市知识图谱中,实体为核心数据,实体与实体之间具有一定的关系,通过知识图谱能够进行分析与展示。另外,根据所述城市知识图谱,能够进行数据的实时验证与分析,通过实时采集的数据导入知识图谱能够实现数据的合理性、完整性分析。
根据本发明实施例,所述在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度,具体为:
在一个预设时间段内,实时获取模型数据;
所述模型数据包括城市动态数据与城市静态数据;
将所述模型数据进行文本数据格式转化与分词处理,得到实时文本数据;
将所述实时文本数据导入语义分析模型进行基于关系、实体、属性分析,并得到实时文本数据的实体、关系、属性数据;
将所述实时文本数据的实体、关系、属性数据导入城市知识图谱,进行基于实体数据的检索与分析,得到基于实体数据的完整度与对应缺失实体数据;
根据实时文本数据的关系、属性数据与城市知识图谱的关系、属性数据进行对比分析并进行数据合理性验证,得到数据合理度与异常数据区域。
需要说明的是,所述分词处理一般为基于HMM的分词法。所述进行基于实体数据的检索与分析,具体为通过将实时文本数据的实体数据与知识图谱中的实体数据进行对比检索,并得到缺失的实体数据对应完整度的计算,若存在缺失的实体数据,则完整度小于100%。例如,在知识图谱中,存在多个实体,分别为站台总流量、站台人流量、站台车流量,在知识图谱中,站台总流量为一级数据,站台人流量、站台车流量为二级数据,且一级数据与二级数据为数据包含的关系,当实时文本数据的实体数据仅存在站台总流量与站台人流量实体时,则代表对应的二级实体“站台车流量”数据缺失,另外,二级数据根据实际还可能有下一级数据,如站台车流量中,还有车辆类型、车辆数量等对应的三级实体数据。所述异常数据区域即存在数据关系不合理的两个实体数据间的数据区域,该区域为在实时文本数据的数据地址映射区域。通过异常数据区域能够查找出哪些数据间的关系存在异常。例如,在一次实时数据收集中,对应收集了城市的车流量数据、车辆类型数据、车辆数量数据,车辆分布数据,在知识图谱中车流量数据包含于车辆类型数据、车辆数量数据,车辆分布数据数据,具有一定的数据关系,而在实际数据采集中,由于数据的多样性与复杂性,可能导致最后的数据关系存在差异(不符合知识图谱中的关系模式),将存在关系异常的实时数据直接导入城市模拟模型进行模拟分析将会出现异常数据结果,因此,本发明通过城市知识图谱的构建并用于关系、属性的数据验证,能够进一步快速检索出异常数据关系,从而分析出数据的合理度并进行数据调整或重新采集。
在实时城市数据采集中,可能会有数据处理顺序或数据转化过程出现问题的情况,又或者数据存在异常、丢失情况,本发明通过知识图谱的精准分析,能够实现快速地数据验证,进一步提高实时数据的验证效率,减少数据错误、异常情况,提高城市模型数据分析的效率与提高程序的鲁棒性。
根据本发明实施例,所述基于所述数据完整度与数据合理度生成数据调整方案,具体为:
获取城市任务分析需求信息;
对城市任务分析需求信息进行文本数据转化并导入语义分析模型进行语义分析并得到任务需求数据报表;
所述任务需求数据报表包括城市任务分析需求信息对应的需求数据类型、需求数据优先级信息;
根据所述任务需求数据报表、完整度与对应缺失实体数据、数据合理度与异常数据区域,对模型数据中各个实体数据进行缺失数据与异常数据的调控分析,结合任务需求数据报表进行需求数据的优先级分析,得到缺失数据与异常数据的调控方案。
需要说明的是,所述城市任务分析需求为实时获取的,一般包括车流量分析、人流量、车辆交通负载分析等任务,具体由用户设定,不同的任务分析需求对应不同的数据需求,且对应不同数据的优先级,优先级反映某个数据对此次城市任务分析需求的重要程度。所述缺失数据与异常数据一般与需求数据具有重合的数据,该重合数据为重点调控的数据对象,且基于优先级可以对数据进行优先调控分析。通过调控方案能够实现数据一致性的调控。
所述构建城市知识图谱,还包括:
获取所述动态数据与静态数据;
计算出动态数据与静态数据的数据量差值;
基于语义分析模型,对动态数据与静态数据分别进行实体数据的提取,得到静态实体数据与动态实体数据;
通过城市模拟模型,分析静态实体数据与动态实体数据在任务需求分析中的数据关联度;
若数据量差值大于第一预设值且数据关联度大于第二预设值,则基于动态数据与静态数据分别进行知识图谱构建并形成对应两个知识图结构;
将所述两个知识图结构进行整合形成城市知识图谱。
需要说明的是,所述动态数据与静态数据即本发明中的城市动态数据、城市静态数据。所述数据关联度即在城市模拟模型进行正常的任务需求分析与数据处理过程中,静态数据与动态数据之间的数据联合使用情况,数据关联度越高,即代表静态数据与动态数据需要更高的关联分析才能满足任务需求,数据关联度越低,则代表动态数据与静态数据在模型分析中相对独立,关联需求不高。值得一提的是,在进行城市任务分析时,往往需要动态数据与静态数据的联合分析才能满足分析需求。所述第一、第二预设值为用户设定。
在本发明中,通过分析动态数据与静态数据的相关度(数据量差值与数据关联度),判断是否需要将动态数据与静态数据进行分开图谱分析,在知识图谱中得到两个知识图,对应静态数据与动态数据,在后续进行实时模型数据分析时,能够针对实时的静态数据与动态数据在对应两个知识图中分别进行数据校验分析,从而提高模型数据的校验准确率与降低校验时间成本,虽然在一定程度上提高了知识图谱的复杂度,但对于复杂的城市模型分析中能够有效地提高模型分析的准确度。
另外,对于较为简单的城市模型,可以通过动态数据与静态数据整合或融合的方式进行统一的语义分析与知识图谱构建。
图4示出了本发明一种基于语义完整性的数据合理性验证系统的框图。
本发明第二方面还提供了一种基于语义完整性的数据合理性验证系统4,该系统包括:存储器41、处理器42,所述存储器中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被所述处理器执行时实现如下步骤:
构建基于数字孪生的城市模拟模型;
获取所述模型中动态数据与静态数据;
基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
基于所述数据完整度与数据合理度生成数据调整方案。
根据本发明实施例,所述构建基于数字孪生的城市模拟模型,具体为:
获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
基于所述城市信息进行可视化建模,形成城市模型;
根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
需要说明的是,所述城市模型具体为用于对目标城市进行数据可视化,该模型包括地图模型,所述交通模型具体为用于数据处理与分析,两者相辅相成,实现可视化与数字孪生的模型功能。
根据本发明实施例,所述获取所述模型中动态数据与静态数据,具体为:
通过目标城市内的监控装置获取城市动态数据;
基于城市模拟模型,获取城市静态数据;
所述城市静态数据包括城市道路、城市隧道与城市站台的规模、形状、位置信息;
所述动态数据包括在城市各个道路中的车流量、人流量、车辆类型统计数据、人流分布、车辆分布信息。
需要说明的是,所述城市站台即城市内的各种交通中转站,例如车站、高铁站等,其人流量与车流量的数据能够反映城市交通状况。所述动态数据包括在城市各个道路中,各个道路包括城市道路、城市隧道与城市站台的道路。所述监控装置包括分布于城市中的视频监控、人流车流监控设备等装置。
根据本发明实施例,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,之前包括:
构建基于CNN算法的语义分析模型;
从系统数据库中获取历史采集城市数据;
将所述历史采集城市数据按照预设比例划分训练数据集、验证数据集、测试数据集;
将所述训练数据集、验证数据集、测试数据集导入语义分析模型进行循环训练,直至语义分析准确度达到预设准确度。
需要说明的是,所述历史采集城市数据为一种具有一定标准的历史数据,包括动态、静态数据,用于对语义模型进行训练。语义分析算法中,CNN为一种能够进行自学习与拥有高智能度的模型算法,通过CNN算法能够对文本进行精准的语义分析与知识数据提取。
根据本发明实施例,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,具体为:
获取所述动态数据与静态数据;
将所述动态数据与静态数据进行数据整合形成城市监控数据;
将所述城市监控数据进行文本数据格式转化,得到文本大数据;
将所述文本大数据进行基于HMM的分词法进行分词处理,将分词后的文本大数据导入语义分析模型进行语义分析并根据语义关系进行基于关系、实体、属性的数据提取,并得到关系数据、实体数据、属性数据;
根据所述关系数据、实体数据、属性数据进行语义关系分析并基于图结构构建城市知识图谱。
需要说明的是,所述城市知识图谱中,实体为核心数据,实体与实体之间具有一定的关系,通过知识图谱能够进行分析与展示。另外,根据所述城市知识图谱,能够进行数据的实时验证与分析,通过实时采集的数据导入知识图谱能够实现数据的合理性、完整性分析。
根据本发明实施例,所述在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度,具体为:
在一个预设时间段内,实时获取模型数据;
所述模型数据包括城市动态数据与城市静态数据;
将所述模型数据进行文本数据格式转化与分词处理,得到实时文本数据;
将所述实时文本数据导入语义分析模型进行基于关系、实体、属性分析,并得到实时文本数据的实体、关系、属性数据;
将所述实时文本数据的实体、关系、属性数据导入城市知识图谱,进行基于实体数据的检索与分析,得到基于实体数据的完整度与对应缺失实体数据;
根据实时文本数据的关系、属性数据与城市知识图谱的关系、属性数据进行对比分析并进行数据合理性验证,得到数据合理度与异常数据区域。
需要说明的是,所述分词处理一般为基于HMM的分词法。所述进行基于实体数据的检索与分析,具体为通过将实时文本数据的实体数据与知识图谱中的实体数据进行对比检索,并得到缺失的实体数据对应完整度的计算,若存在缺失的实体数据,则完整度小于100%。例如,在知识图谱中,存在多个实体,分别为站台总流量、站台人流量、站台车流量,在知识图谱中,站台总流量为一级数据,站台人流量、站台车流量为二级数据,且一级数据与二级数据为数据包含的关系,当实时文本数据的实体数据仅存在站台总流量与站台人流量实体时,则代表对应的二级实体“站台车流量”数据缺失,另外,二级数据根据实际还可能有下一级数据,如站台车流量中,还有车辆类型、车辆数量等对应的三级实体数据。所述异常数据区域即存在数据关系不合理的两个实体数据间的数据区域,该区域为在实时文本数据的数据地址映射区域。通过异常数据区域能够查找出哪些数据间的关系存在异常。例如,在一次实时数据收集中,对应收集了城市的车流量数据、车辆类型数据、车辆数量数据,车辆分布数据,在知识图谱中车流量数据包含于车辆类型数据、车辆数量数据,车辆分布数据数据,具有一定的数据关系,而在实际数据采集中,由于数据的多样性与复杂性,可能导致最后的数据关系存在差异(不符合知识图谱中的关系模式),将存在关系异常的实时数据直接导入城市模拟模型进行模拟分析将会出现异常数据结果,因此,本发明通过城市知识图谱的构建并用于关系、属性的数据验证,能够进一步快速检索出异常数据关系,从而分析出数据的合理度并进行数据调整或重新采集。
在实时城市数据采集中,可能会有数据处理顺序或数据转化过程出现问题的情况,又或者数据存在异常、丢失情况,本发明通过知识图谱的精准分析,能够实现快速地数据验证,进一步提高实时数据的验证效率,减少数据错误、异常情况,提高城市模型数据分析的效率与提高程序的鲁棒性。
根据本发明实施例,所述基于所述数据完整度与数据合理度生成数据调整方案,具体为:
获取城市任务分析需求信息;
对城市任务分析需求信息进行文本数据转化并导入语义分析模型进行语义分析并得到任务需求数据报表;
所述任务需求数据报表包括城市任务分析需求信息对应的需求数据类型、需求数据优先级信息;
根据所述任务需求数据报表、完整度与对应缺失实体数据、数据合理度与异常数据区域,对模型数据中各个实体数据进行缺失数据与异常数据的调控分析,结合任务需求数据报表进行需求数据的优先级分析,得到缺失数据与异常数据的调控方案。
需要说明的是,所述城市任务分析需求为实时获取的,一般包括车流量分析、人流量、车辆交通负载分析等任务,具体由用户设定,不同的任务分析需求对应不同的数据需求,且对应不同数据的优先级,优先级反映某个数据对此次城市任务分析需求的重要程度。所述缺失数据与异常数据一般与需求数据具有重合的数据,该重合数据为重点调控的数据对象,且基于优先级可以对数据进行优先调控分析。通过调控方案能够实现数据一致性的调控。
所述构建城市知识图谱,还包括:
获取所述动态数据与静态数据;
计算出动态数据与静态数据的数据量差值;
基于语义分析模型,对动态数据与静态数据分别进行实体数据的提取,得到静态实体数据与动态实体数据;
通过城市模拟模型,分析静态实体数据与动态实体数据在任务需求分析中的数据关联度;
若数据量差值大于第一预设值且数据关联度大于第二预设值,则基于动态数据与静态数据分别进行知识图谱构建并形成对应两个知识图结构;
将所述两个知识图结构进行整合形成城市知识图谱。
需要说明的是,所述动态数据与静态数据即本发明中的城市动态数据、城市静态数据。所述数据关联度即在城市模拟模型进行正常的任务需求分析与数据处理过程中,静态数据与动态数据之间的数据联合使用情况,数据关联度越高,即代表静态数据与动态数据需要更高的关联分析才能满足任务需求,数据关联度越低,则代表动态数据与静态数据在模型分析中相对独立,关联需求不高。值得一提的是,在进行城市任务分析时,往往需要动态数据与静态数据的联合分析才能满足分析需求。所述第一、第二预设值为用户设定。
在本发明中,通过分析动态数据与静态数据的相关度(数据量差值与数据关联度),判断是否需要将动态数据与静态数据进行分开图谱分析,在知识图谱中得到两个知识图,对应静态数据与动态数据,在后续进行实时模型数据分析时,能够针对实时的静态数据与动态数据在对应两个知识图中分别进行数据校验分析,从而提高模型数据的校验准确率与降低校验时间成本,虽然在一定程度上提高了知识图谱的复杂度,但对于复杂的城市模型分析中能够有效地提高模型分析的准确度。
另外,对于较为简单的城市模型,可以通过动态数据与静态数据整合或融合的方式进行统一的语义分析与知识图谱构建。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被处理器执行时,实现如上述任一项所述的基于语义完整性的数据合理性验证方法的步骤。
本发明公开了一种基于语义完整性的数据合理性验证方法、系统及存储介质,构建基于数字孪生的城市模拟模型;获取所述模型中动态数据与静态数据;基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;基于所述数据完整度与数据合理度生成数据调整方案。本发明能够充分利用模型中的语义信息,进行数据一致性和完整性的校验,提高模型的准确性和稳定性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于语义完整性的数据合理性验证方法,其特征在于,包括:
构建基于数字孪生的城市模拟模型;
获取所述模型中动态数据与静态数据;
基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
基于所述数据完整度与数据合理度生成数据调整方案。
2.根据权利要求1所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述构建基于数字孪生的城市模拟模型,具体为:
获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
基于所述城市信息进行可视化建模,形成城市模型;
根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
3.根据权利要求1所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述获取所述模型中动态数据与静态数据,具体为:
通过目标城市内的监控装置获取城市动态数据;
基于城市模拟模型,获取城市静态数据;
所述城市静态数据包括城市道路、城市隧道与城市站台的规模、形状、位置信息;
所述动态数据包括在城市各个道路中的车流量、人流量、车辆类型统计数据、人流分布、车辆分布信息。
4.根据权利要求1所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,之前包括:
构建基于CNN算法的语义分析模型;
从系统数据库中获取历史采集城市数据;
将所述历史采集城市数据按照预设比例划分训练数据集、验证数据集、测试数据集;
将所述训练数据集、验证数据集、测试数据集导入语义分析模型进行循环训练,直至语义分析准确度达到预设准确度。
5.根据权利要求4所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱,具体为:
获取所述动态数据与静态数据;
将所述动态数据与静态数据进行数据整合形成城市监控数据;
将所述城市监控数据进行文本数据格式转化,得到文本大数据;
将所述文本大数据进行基于HMM的分词法进行分词处理,将分词后的文本大数据导入语义分析模型进行语义分析并根据语义关系进行基于关系、实体、属性的数据提取,并得到关系数据、实体数据、属性数据;
根据所述关系数据、实体数据、属性数据进行语义关系分析并基于图结构构建城市知识图谱。
6.根据权利要求5所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度,具体为:
在一个预设时间段内,实时获取模型数据;
所述模型数据包括城市动态数据与城市静态数据;
将所述模型数据进行文本数据格式转化与分词处理,得到实时文本数据;
将所述实时文本数据导入语义分析模型进行基于关系、实体、属性分析,并得到实时文本数据的实体、关系、属性数据;
将所述实时文本数据的实体、关系、属性数据导入城市知识图谱,进行基于实体数据的检索与分析,得到基于实体数据的完整度与对应缺失实体数据;
根据实时文本数据的关系、属性数据与城市知识图谱的关系、属性数据进行对比分析并进行数据合理性验证,得到数据合理度与异常数据区域。
7.根据权利要求6所述的一种基于语义完整性的数据合理性验证方法,其特征在于,所述基于所述数据完整度与数据合理度生成数据调整方案,具体为:
获取城市任务分析需求信息;
对城市任务分析需求信息进行文本数据转化并导入语义分析模型进行语义分析并得到任务需求数据报表;
所述任务需求数据报表包括城市任务分析需求信息对应的需求数据类型、需求数据优先级信息;
根据所述任务需求数据报表、完整度与对应缺失实体数据、数据合理度与异常数据区域,对模型数据中各个实体数据进行缺失数据与异常数据的调控分析,结合任务需求数据报表进行需求数据的优先级分析,得到缺失数据与异常数据的调控方案。
8.一种基于语义完整性的数据合理性验证系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被所述处理器执行时实现如下步骤:
构建基于数字孪生的城市模拟模型;
获取所述模型中动态数据与静态数据;
基于CNN语义分析算法,对所述动态数据与静态数据进行基于关系、实体、属性的数据提取,基于提取数据进行图谱搭建,形成城市知识图谱;
在一个预设时间段内,实时获取模型数据,将所述模型数据进行基于城市知识图谱的数据分类与数据完整性计算分析,得到数据完整度与数据合理度;
基于所述数据完整度与数据合理度生成数据调整方案。
9.根据权利要求8所述的一种基于语义完整性的数据合理性验证系统,其特征在于,所述构建基于数字孪生的城市模拟模型,具体为:
获取目标城市的面积、轮廓、交通道路、基础建设城市信息;
基于所述城市信息进行可视化建模,形成城市模型;
根据城市信息进行基于数字孪生的交通模拟分析,并构建基于数字孪生的交通模型;
将所述城市模型与交通模型进行模型融合形成基于可视化与数字孪生的城市模拟模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于语义完整性的数据合理性验证程序,所述基于语义完整性的数据合理性验证程序被处理器执行时,实现如权利要求1至7中任一项所述的基于语义完整性的数据合理性验证方法的步骤。
CN202311491642.1A 2023-11-10 2023-11-10 基于语义完整性的数据合理性验证方法、系统及存储介质 Pending CN117252108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311491642.1A CN117252108A (zh) 2023-11-10 2023-11-10 基于语义完整性的数据合理性验证方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311491642.1A CN117252108A (zh) 2023-11-10 2023-11-10 基于语义完整性的数据合理性验证方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN117252108A true CN117252108A (zh) 2023-12-19

Family

ID=89129726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311491642.1A Pending CN117252108A (zh) 2023-11-10 2023-11-10 基于语义完整性的数据合理性验证方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117252108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496786A (zh) * 2024-01-02 2024-02-02 南昌菱形信息技术有限公司 基于数字孪生的运动控制实训方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496786A (zh) * 2024-01-02 2024-02-02 南昌菱形信息技术有限公司 基于数字孪生的运动控制实训方法及系统
CN117496786B (zh) * 2024-01-02 2024-03-22 南昌菱形信息技术有限公司 基于数字孪生的运动控制实训方法及系统

Similar Documents

Publication Publication Date Title
CN117252108A (zh) 基于语义完整性的数据合理性验证方法、系统及存储介质
CN111428558A (zh) 一种基于改进YOLOv3方法的车辆检测方法
CN110196834A (zh) 一种用于数据项、文件、数据库的对标方法和系统
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN112233428A (zh) 车流量预测方法、装置、存储介质及设备
CN114325405A (zh) 电池组一致性分析方法、建模方法、装置、设备及介质
CN115730749A (zh) 基于融合电力数据的电力调度风险预警方法及装置
WO2021146906A1 (zh) 测试场景仿真方法、装置、计算机设备和存储介质
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN114005135A (zh) 建设项目图纸智能审核方法、系统、设备及可读存储介质
CN116384844B (zh) 基于地理信息云平台的决策方法及装置
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN113535739B (zh) 一种基于电网能源数据的数据集市层表建立方法
CN115309705A (zh) 一种自动识别城市信息模型平台基础数据元素的数据集成分类系统及其分类方法
CN111199357B (zh) 一种快递点电子围栏诊断方法及装置
CN117436444B (zh) 基于标签的数据处理方法、设备及计算机可读存储介质
CN109766727A (zh) 智能区块网络构建方法及系统
CN111931743B (zh) 建筑违章监控方法、系统和电子设备
CN115374526B (zh) 一种基于bim技术的精细化配筋方法及系统
CN113872794B (zh) 基于云端资源支撑的it运维平台系统及其运维方法
CN114913670B (zh) 一种基于安全码管理的人员出海安全管理系统
CN117094602A (zh) 停车场评分方法、停车场评分系统、设备及存储介质
CN116978042A (zh) 一种图像处理方法、相关设备及存储介质
CN117522139A (zh) 基于拓扑图谱的企业关联风险分析方法、装置及介质
CN118013334A (zh) 一种日志异常检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination