CN117349388B

CN117349388B - 数据时效性确定方法、电子设备

Info

Publication number: CN117349388B
Application number: CN202311652647.8A
Authority: CN
Inventors: 梁文凤; 彭雅楠; 李俊; 冯建亮
Original assignee: Nanjing Smartmap Information Technology Co ltd
Current assignee: Nanjing Smartmap Information Technology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-02-20
Anticipated expiration: 2043-12-05
Also published as: CN117349388A

Abstract

本申请提供数据时效性确定方法、电子设备，通过访问目标数据库，以从目标数据库中获取目标数据实体的属性特征字段元数据集合；将属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；根据语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值，从而实现了即使数据的时间戳缺失或者不完整，也能实现数据时效性的确定，从而为数据质量的评估提供重要的依据。

Description

数据时效性确定方法、电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据时效性确定方法、电子设备。

背景技术

随着大数据时代的来临，以地理信息系统GIS、时空移动对象为代表的多维空间数据呈爆发式增长，每天产生与需要处理的数据可达数百TB，成为新基建和数字化框架的重要基础。这其中，数据质量问题受到越来越多的关注。在数据质量的各个维度中，判定数据的时效性是确保数据质量的第一步。但数据时效性的判定并非易事，其面临极大挑战。比如，可能遇到如下挑战：

如果数据的来源不可靠或不可信，那么确定数据的时效性就会变得困难。数据可能存在延迟、错误或不完整性等问题，这可能导致数据时效性的不准确。

不同数据源的更新频率可能不一致。有些数据源可能每天更新，而其他数据源可能每周或每月更新。在确定数据时效性时，需要考虑到这些不一致性，以便准确地反映数据的最新状态。

在数据从源头传输到使用者之间可能存在一定的延迟。这可能是由于网络传输速度慢、数据处理时间长或数据集成和清洗过程中的问题等原因。这些延迟会影响数据的时效性。

为此，现有技术中，常常通过数据的时间戳来简单的判断数据的时效性。但是，由于上述各种原因导致数据的时间戳缺失或者不完整，由此导致无法实现对数据的时效性进行确定。

发明内容

本申请的目的在于提出一种数据时效性确定方法、电子设备，用于解决或者缓解现有技术中存在的技术问题。

本申请实施例提供一种数据时效性确定方法，其包括：

访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；

将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；

根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；

根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；

根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值。

本申请实施例提供一种电子设备，所述电子设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请实施例所述的方法。

本申请中，通过访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值，从而，实现了即使数据的时间戳缺失或者不完整，也能实现数据时效性的确定，从而为数据质量的评估提供重要的依据。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本申请实施例一种数据时效性确定方法的流程示意图。

图2为本申请实施例一种数据时效性确定装置的结构示意图。

图3为本申请实施例提供一种数据时效性确定方法的流程示意图。

图4为本实施例电子设备的结构示意图。

图5为本实施例电子设备的硬件结构。

实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

本实施例中，下述目标数据实体比如可以为与地理信息系统GIS、时空移动对象为代表的多维空间数据关联的实体。

但是，实际上，对于本领域普通技术人员来说，也可以将本申请实施例的下述技术方案扩展应用其他非地理信息系统GIS、时空移动对象的场景中。

图1为本申请实施例一种数据时效性确定方法的流程示意图。如图1所示，其包括如下步骤：

S101、访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；

可选地，本实施例中，所述步骤S101中，从所述目标数据库中获取目标数据实体的属性特征字段元数据集合，包括：

从所述目标数据库中获取目标数据记录；

对所述目标数据记录进行实体识别，以确定目标数据实体，以及描述所述目标数据实体的属性特征字段元数据集合。

示例性地，提供了如下一种代码来实现上述步骤S101：

import psycopg2 # 导入适用于PostgreSQL数据库的 Python 连接库

import spacy # 导入用于实体识别的自然语言处理库

# 连接到目标数据库

defconnect_to_database():

conn = psycopg2.connect(database="your_database", user="your_username", password="your_password", host="your_host", port="your_port")

return conn

# 获取目标数据记录

defget_target_data_records():

conn = connect_to_database()

cursor = conn.cursor()

cursor.execute("SELECT * FROM your_table")

data_records = cursor.fetchall()

cursor.close()

conn.close()

returndata_records

# 实体识别

defentity_recognition(data_records):

nlp = spacy.load("en_core_web_sm") # 加载实体识别模型

for record in data_records:

text = record[1] # 假设目标数据记录的文本内容在第二列

doc = nlp(text)

for entity in doc.ents:

entity_text = entity.text

entity_label = entity.label_

# 在这里可以根据实体标签对目标数据实体进行分类，并提取属性特征字段元数据集合

# 可以将实体和属性特征字段元数据保存到数据库或进行其他处理

# 主函数

def main():

data_records = get_target_data_records()

entity_recognition(data_records)

if __name__ == "__main__":

main()

可选地，本实施例中，所述目标数据库不做限定，比如可以是sql数据库。另外，所述目标数据库可以是本地数据库，也可以是分布式数据库。

需要说明的时，针对不同形式的目标数据库，为实现访问，可以根据匹配该目标数据库的方式来触发数据库访问指令，从而访问该目标数据库对应的数据接口从而从中获取目标数据记录。为此，本申请实施例中，对于目标数据库的访问方式不做唯一性限定，只要是可以匹配目标数据库从而获取到目标数据记录即可。

比如，针对sql数据库，可以通过结构化查询语言执行查询语句来获取目标数据记录。或者，通过可编程语言的数据库接口来连接目标数据库、执行查询语句从而获取目标数据记录。或者，利用数据库管理工具连接到目标数据库并执行查询操作。还有比如针对提供了API或Web服务的目标数据库，可以向目标数据库发送HTTP请求，从目标数据库获取到返回数据后对其进行解析从而实现从目标数据库中获取目标数据记录。再比如，对于提供了数据库连接池的目标数据库，可以通过使用数据库连接池，从数据库连接池中获取数据库连接，并执行查询操作以从目标数据库获取目标数据记录。为此，本申请实施例中相当于提供了各种访问目标数据库的方式，以便于根据应用场景，灵活进行选择，从而提高方案应用的灵活性。

S102、将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；

可选地，所述将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，包括：

对所述属性特征字段元数据集合进行语义分析，以确定所述属性特征字段元数据集合的语义类别；

根据所述属性特征字段元数据集合的语义类别，将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇。

可选地，本实施例中，对所述属性特征字段元数据集合进行语义分析，以确定所述属性特征字段元数据集合的语义类别可以包括如下步骤：

对属性特征字段元数据集合进行数据清洗，去除重复、缺失和异常的属性特征字段元数据；

使用中文分词工具（如jieba）对属性特征字段元数据进行分词进行词性标注得到带有词性标注的属性特征字段分词；

使用预先建立的语义类别标签，与所述属性特征字段分词进行匹配，以确定所述属性特征字段分词的语义类别；比如通过计算属性特征字段分词与所述语义类别标签的语义距离，语义距离小于设定的阈值，则表示匹配。

对所述属性特征字段分词的语义类别进行聚合，得到所述属性特征字段元数据集合的语义类别。

以下提供对所述属性特征字段元数据集合进行语义分析，以确定所述属性特征字段元数据集合的语义类别的部分示例性代码：

import jieba # 导入中文分词工具

import jieba.posseg as pseg # 导入中文分词工具的词性标注模块

# 数据清洗

defdata_cleaning(metadata):

cleaned_metadata = []

for item in metadata:

# 去除重复的属性特征字段元数据

if item not in cleaned_metadata:

# 去除缺失和异常的属性特征字段元数据

if item.strip() != "":

cleaned_metadata.append(item)

returncleaned_metadata

# 分词和词性标注

deftokenize_and_pos_tag(metadata):

tokenized_metadata = []

for item in metadata:

words = pseg.cut(item)

tokenized_item = [(word.word, word.flag) for word in words]

tokenized_metadata.append(tokenized_item)

returntokenized_metadata

# 语义类别匹配

defmatch_semantic_category(tokenized_metadata):

semantic_categories = []

for item in tokenized_metadata:

semantic_category = None

for word, pos in item:

# 在这里使用预先建立的语义类别标签进行匹配

# 可以使用字典或数据库等方式存储语义类别标签

if word in semantic_category_labels:

semantic_category = semantic_category_labels[word]

break

semantic_categories.append(semantic_category)

returnsemantic_categories

# 聚合语义类别

defaggregate_semantic_categories(semantic_categories):

aggregated_categories = set(semantic_categories)

returnaggregated_categories

# 主函数

def main():

metadata = ["属性特征字段1", "属性特征字段2", "属性特征字段3",...] # 假设这是属性特征字段元数据集合

cleaned_metadata = data_cleaning(metadata)

tokenized_metadata = tokenize_and_pos_tag(cleaned_metadata)

semantic_categories = match_semantic_category(tokenized_metadata)

aggregated_categories = aggregate_semantic_categories(semantic_categories)

print(aggregated_categories)

if __name__ == "__main__":

main()

本实施例中，通过上述清洗，提高了属性特征字段元数据集合的数据质量，在此基础上只需要通过分词、词性标注，即可可快速且准确地确定出能反应语义分类的属性特征字段分词，进一步语义类别标签进行匹配即可快速地确定出属性特征字段分词的语义类别，然后通过聚类分析，从而准确地确定出了所述属性特征字段元数据集合的语义类别。

可选地，所述确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系，包括：

访问元数据间语义关系分析逻辑规则库，以调用其中包括的元数据间语义关系分析逻辑规则判断式，确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系。

本实施例中，考虑到目标数据记录并不像普通文本那样，具有复杂的文本结构，因此，通过元数据间语义关系分析逻辑规则库中的元数据间语义关系分析逻辑规则判断式与属性特征字段元数据进行匹配，从而快速地判断出属性特征字段元数据之间的语义关系。

为实现基于元数据间语义关系分析逻辑规则库来确定所述语义关系，本实施例中，所述的方法，还包括：

基于所述语义关系的分类，建立所述元数据间语义关系分析逻辑规则库，所述元数据间语义关系分析逻辑规则库包括单调时序分析逻辑规则判断式以及语义状态分析逻辑规则判断式，所述语义关系的分类包括单调时序分类以及逻辑状态转换分类，所述单调时序分类对应单调时序分析逻辑规则判断式，所述逻辑状态转换分类对应所述语义状态分析逻辑规则判断式。

本实施例中，上述单调时序分析逻辑规则判断式以及语义状态分析逻辑规则判断式可以通过配置逻辑规则判断前件和逻辑规则判断后件的方式来实施，从而降低算法的复杂度，提高判断式的结构紧凑型。

所述调用其中包括的元数据间语义关系分析逻辑规则判断式，确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系，包括：

调用所述单调时序分析逻辑规则判断式，判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的时序语义关系；

调用所述语义状态分析逻辑规则判断式，判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的状态转换语义关系。

以下提供了一种确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系的示例性代码：

# 单调时序分析逻辑规则判断式

defmonotonic_time_sequence_analysis(metadata_cluster):

# 在这里实现单调时序分析逻辑规则判断式

# 可以根据属性特征字段元数据之间的时间顺序关系进行判断

# 返回判断结果，比如 True 或 False

return result

# 语义状态分析逻辑规则判断式

defsemantic_state_analysis(metadata_cluster):

# 在这里实现语义状态分析逻辑规则判断式

# 可以根据属性特征字段元数据之间的状态转换关系进行判断

# 返回判断结果，比如 True 或 False

return result

# 主函数

def main():

metadata_cluster = get_metadata_cluster() # 假设这是属性特征字段元数据簇

is_monotonic = monotonic_time_sequence_analysis(metadata_cluster)

is_semantic_state = semantic_state_analysis(metadata_cluster)

print("单调时序关系判断结果:", is_monotonic)

print("语义状态关系判断结果:", is_semantic_state)

if __name__ == "__main__":

main()

本实施例中，调用所述单调时序分析逻辑规则判断式，判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的时序语义关系，比如可以包括：对应属性特征字段元数据簇包括的属性特征字段元数据进行语义时序排序形成语义排序序列，将所述语义排序序列代入到所述单调时序分析逻辑规则判断式中，以判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的时序语义关系。比如，表明属性特征字段元数据是都随着时间单调变化的语义关系。

类似地，调用所述语义状态分析逻辑规则判断式，判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的状态转换语义关系，比如可以包括：对应属性特征字段元数据簇包括的属性特征字段元数据进行状态转换语义排序形成状态转换排序序列，将所述状态转换排序序列代入到所述语义状态分析逻辑规则判断式中，以判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的状态转换语义关系。比如，表明属性特征字段元数据的状态是按照固定规律进行变换的语义关系。

S103、根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；

可选地，本实施例中，所述根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图，包括：

以所述属性特征字段元数据为顶点，具有语义关系的两个属性特征字段元数据设置有边，以生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图。

可替代地，本实施例中，所述根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图，包括：

基于所述时序语义关系，生成对应属性特征字段元数据簇的时效有向图；

基于所述状态转换语义关系，生成对应属性特征字段元数据簇的状态转换有向图。

可选地，本实施例中，基于所述时序语义关系，生成对应属性特征字段元数据簇的时效有向图，包括：

以所述属性特征字段元数据为顶点，具有时序语义关系的两个属性特征字段元数据设置有边，边的方向表示时序语义的时效方向性，以生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的时效有向图。

比如，可以使用网络图库（如NetworkX）来实现生成属性特征字段元数据之间的时序有向图的功能，示例性的代码部分如下：

importnetworkx as nx

importmatplotlib.pyplot as plt

# 生成时序有向图

defgenerate_time_sequence_graph(metadata_cluster):

G = nx.DiGraph()

for i in range(len(metadata_cluster)-1):

G.add_edge(metadata_cluster[i], metadata_cluster[i+1])

return G

# 可视化时序有向图

defvisualize_time_sequence_graph(G):

pos = nx.spring_layout(G)

nx.draw(G, pos, with_labels=True, node_color='lightblue', edge_color='gray', node_size=500, font_size=10)

plt.show()

# 主函数

def main():

metadata_cluster = ["属性特征字段1", "属性特征字段2", "属性特征字段3", ...] # 假设这是属性特征字段元数据簇

G = generate_time_sequence_graph(metadata_cluster)

visualize_time_sequence_graph(G)

if __name__ == "__main__":

main()

可选地，本实施例中，基于所述状态转换语义关系，生成对应属性特征字段元数据簇的状态转换有向图，包括：

以所述属性特征字段元数据为顶点，具有状态转换语义关系的两个属性特征字段元数据设置有边，边的方向表示状态转换语义的状态转换方向性，以生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的状态转换有向图。

以下提供了一种生成对应属性特征字段元数据簇的状态转换有向图的示例性部分代码：

importnetworkx as nx

importmatplotlib.pyplot as plt

# 状态转换语义分析逻辑规则判断式

defsemantic_state_analysis(metadata_cluster):

# 在这里实现状态转换语义分析逻辑规则判断式

# 返回判断结果，比如 True 或 False

return result

# 生成状态转换有向图

defgenerate_state_transition_graph(metadata_cluster):

G = nx.DiGraph()

for i in range(len(metadata_cluster)-1):

G.add_edge(metadata_cluster[i], metadata_cluster[i+1])

return G

# 可视化状态转换有向图

defvisualize_state_transition_graph(G):

pos = nx.spring_layout(G)

plt.show()

# 主函数

def main():

is_semantic_state = semantic_state_analysis(metadata_cluster)

G = generate_state_transition_graph(metadata_cluster)

visualize_state_transition_graph(G)

print("语义状态关系判断结果:", is_semantic_state)

if __name__ == "__main__":

main()

本实施例中，以所述属性特征字段元数据为顶点，具有语义关系的两个属性特征字段元数据设置有边，以生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图，可以更好地理解属性特征字段元数据之间的关联性和相互作用，有助于快速进行后续的时效分析。

S104、根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；

本实施例中，所述根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值，包括：

确定所述语义关系拓扑图中顶点之间语义关系的梯度语义深度，并根据所述梯度语义深度生成梯度语义深度路径；

根据所述梯度语义深度路径的长短，计算对应属性特征字段元数据簇的时效性评估值。

本实施例中，通过生成梯度语义深度路径，可以更直观地展示顶点之间的时效跨度，并且路径的长度可以用来评估应属性特征字段元数据的之间时效新旧梯度变化，从而保证了对应属性特征字段元数据簇的时效性评估值的准确性。

可选地，所述根据所述梯度语义深度生成梯度语义深度路径，包括：

为每一所述梯度语义深度分配时效评估权重，以计算时效评估加权平均值，以代表所述梯度语义深度路径，所述时效评估加权平均值表示所述梯度语义深度路径的长短。

为此，如果梯度语义深度路径的越长，则表明对应的属性特征字段元数据簇时效性较强，则对应的时效性评估值较高，否则，对应的时效性评估值较底。

以下提供了一种确定对应属性特征字段元数据簇的时效性评估值的示例性代码框架：

importnetworkx as nx

# 计算梯度语义深度

defcalculate_semantic_depth(G):

semantic_depth = nx.single_source_shortest_path_length(G, source="起始顶点")

returnsemantic_depth

# 计算时效评估加权平均值

defcalculate_weighted_average(semantic_depth, time_evaluation_weights):

weighted_sum = 0

total_weight = 0

for node, depth in semantic_depth.items():

weighted_sum += depth * time_evaluation_weights[node]

total_weight += time_evaluation_weights[node]

weighted_average = weighted_sum / total_weight

returnweighted_average

# 计算时效性评估值

defcalculate_timeliness_evaluation(metadata_cluster, weighted_average):

timeliness_evaluation = len(metadata_cluster) / weighted_average

returntimeliness_evaluation

# 主函数

def main():

G = nx.DiGraph() # 假设这是语义关系拓扑图

time_evaluation_weights = {"属性特征字段1": 0.5, "属性特征字段2":0.3, "属性特征字段3": 0.2, ...} # 假设这是时效评估权重

semantic_depth = calculate_semantic_depth(G)

weighted_average = calculate_weighted_average(semantic_depth, time_evaluation_weights)

timeliness_evaluation = calculate_timeliness_evaluation(metadata_cluster, weighted_average)

print("时效性评估值:", timeliness_evaluation)

if __name__ == "__main__":

main()

S105、根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值。

可选地，本实施例中，比如可以计算所有属性特征字段元数据簇的时效性评估值的加权均值，从而确定所述目标数据实体的时效性观测值。当通过考虑所有属性特征字段的时效性评估值时，可以综合考虑目标数据实体的多个方面的时效性，从而更全面地评估其时效性。

以下提供了一种确定所述目标数据实体的时效性观测值的示例性代码框架：

# 计算时效性评估值的加权均值

defcalculate_weighted_average(timeliness_evaluations, weights):

weighted_sum = 0

total_weight = 0

for i in range(len(timeliness_evaluations)):

weighted_sum += timeliness_evaluations[i] * weights[i]

total_weight += weights[i]

weighted_average = weighted_sum / total_weight

returnweighted_average

# 主函数

def main():

metadata_clusters = [

["属性特征字段1", "属性特征字段2", "属性特征字段3", ...],

["属性特征字段4", "属性特征字段5", "属性特征字段6", ...],

...

] # 假设这是多个属性特征字段元数据簇

weights = [0.3, 0.4, 0.2, ...] # 假设这是每个属性特征字段元数据簇的权重

timeliness_evaluations = []

formetadata_cluster in metadata_clusters:

timeliness_evaluation = calculate_timeliness_evaluation(metadata_cluster)

timeliness_evaluations.append(timeliness_evaluation)

weighted_average = calculate_weighted_average(timeliness_evaluations,weights)

print("时效性观测值:", weighted_average)

if __name__ == "__main__":

main()

本实施例中，基于所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值，从而可以使得不同属性特征字段的时效性评估值具有一致性，从而更准确地确定所述目标数据实体的时效性观测值，并便于进行比较和分析；另外，如果时效性评估值发生了更新，可以及时地反映目标数据实体的时效性变化，从而更及时地进行决策和调整。

图2为本申请实施例一种数据时效性确定装置的结构示意图。如图2所示，其包括：

数据获取单元201，用于访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；

语义分析单元202，用于将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；

图绘制单元203，用于根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；

评估单元204，用于根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；以及根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值。

上述图2中各个模块的示例性说明，可以参见上述图1实施例的记载。

图3为本申请实施例提供一种数据时效性确定方法的流程示意图。如图3所示，其包括：

S301、将目标数据实体的属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；

S302、根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；

S303、根据所语义关系拓扑图，确定所述目标数据实体的时效性观测值。

本实施例中，根据所语义关系拓扑图，确定所述目标数据实体的时效性观测值，可以包括：

本实施例中，有关各个步骤的示例性说明可参见上述图1的记载。

图4为本实施例电子设备的结构示意图；该电子设备可以包括：

一个或多个处理器401；

计算机可读介质402，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例所述的方法。

图5为本实施例电子设备的硬件结构；如图5所示，该电子设备的硬件结构可以包括：处理器401，通信接口502，计算机可读介质402和通信总线504；

其中处理器401、通信接口502、计算机可读介质402通过通信总线504完成相互间的通信；

可选地，通信接口502可以为通信模块的接口，如GSM模块的接口；

其中，处理器401具体可以配置为：通过访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值。

处理器401可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读介质402可以是，但不限于，随机存取存储介质（Random AccessMemory，RAM），只读存储介质（Read Only Memory，ROM），可编程只读存储介质（Programmable Read-Only Memory，PROM），可擦除只读存储介质（Erasable ProgrammableRead-Only Memory，EPROM），电可擦除只读存储介质（Electric Erasable ProgrammableRead-Only Memory，EEPROM）等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所描述的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：通过访问目标数据库，以从所述目标数据库中获取目标数据实体的属性特征字段元数据集合；将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，并确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值；根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据时效性确定方法，其特征在于，包括：

根据所有属性特征字段元数据簇的时效性评估值，确定所述目标数据实体的时效性观测值；

其中，所述根据所语义关系拓扑图，确定对应属性特征字段元数据簇的时效性评估值，包括：

根据所述梯度语义深度路径的长短，计算对应属性特征字段元数据簇的时效性评估值；

其中，所述根据所述梯度语义深度生成梯度语义深度路径，包括：

为每一所述梯度语义深度分配时效评估权重，以计算时效评估加权平均值，以代表所述梯度语义深度路径，所述时效评估加权平均值表示所述梯度语义深度路径的长短；

其中，所述根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图，包括：

以所述属性特征字段元数据为顶点，具有语义关系的两个属性特征字段元数据设置有边，以生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图；

其中，所述的方法，还包括：

基于所述语义关系的分类，建立所述元数据间语义关系分析逻辑规则库，所述元数据间语义关系分析逻辑规则库包括单调时序分析逻辑规则判断式以及语义状态分析逻辑规则判断式，所述语义关系的分类包括单调时序分类以及逻辑状态转换分类，所述单调时序分类对应单调时序分析逻辑规则判断式，所述逻辑状态转换分类对应所述语义状态分析逻辑规则判断式；

调用其中包括的元数据间语义关系分析逻辑规则判断式，确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系，包括：

调用所述语义状态分析逻辑规则判断式，判断对应属性特征字段元数据簇包括的属性特征字段元数据之间的状态转换语义关系；

其中，所述确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系，包括：

访问元数据间语义关系分析逻辑规则库，以调用其中包括的元数据间语义关系分析逻辑规则判断式，确定每个属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系；

其中，所述将所述属性特征字段元数据集合分割为多个属性特征字段元数据簇，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述目标数据库中获取目标数据实体的属性特征字段元数据集合，包括：

从所述目标数据库中获取目标数据记录；

3.根据权利要求1所述的方法，其特征在于，所述根据所述语义关系，生成对应属性特征字段元数据簇包括的属性特征字段元数据之间的语义关系拓扑图，包括：

4.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任意一项权利要求所述的方法。