CN113127573A

CN113127573A - 相关数据的确定方法、装置、计算机设备和存储介质

Info

Publication number: CN113127573A
Application number: CN201911418068.0A
Authority: CN
Inventors: 李宇; 刘建环
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16

Abstract

本发明提供了一种相关数据的确定方法、装置、计算机设备和存储介质。该相关数据的确定方法包括：获取待分析的数据对象集，其中，数据对象集包括多个数据对象；计算数据对象的数据画像信息；根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，其中，聚类簇包括若干数据对象；计算同一聚类簇中数据对象之间的内容相似值；计算同一聚类簇中数据对象之间的语义相似值；以及在同一聚类簇中，根据内容相似值和语义相似值确定相关数据，其中，内容相似值越大、语义相似值越大的数据对象互为相关数据的概率越大。通过本发明，能够实现大数据场景下的相关数据的自动识别。

Description

相关数据的确定方法、装置、计算机设备和存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种相关数据的确定方法、装置、计算机设备和存储介质。

背景技术

随着云时代的来临，大数据(Big data)吸引了越来越多的关注，而大数据需要通过专业化的处理，才能具有更强的决策力、洞察发现力和流程优化能力，其中，在专业化处理步骤中，发现存在相关性的数据对象，以及评估相关数据的相关性程度，使数据分析人员发现大数据背后业务相关性与合理性，使数据管理人员更好的进行数据存储规划，使数仓建设人员提供更好的参考数据，显得尤为重要。

在现有技术中，对数据的相关性分析多为人工分析，通常仅是面对几个数据文档，或者在某个特定业务场景下进行分析，而大数据具有数据库多、表多、数据字段海量和数据冗余的特点，人工分析的数据相关性的方法并不适合于分析大数据场景下的数据。

因此，提供一种相关数据的确定方法、装置、计算机设备和存储介质，以确定大数据场景下的相关数据，成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种相关数据的确定方法、装置、计算机设备和存储介质，用于解决现有技术中上述的技术问题。

一方面，为实现上述目的，本发明提供了一种相关数据的确定方法。

该相关数据的确定方法包括：获取待分析的数据对象集，其中，数据对象集包括多个数据对象；计算数据对象的数据画像信息；根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，其中，聚类簇包括若干数据对象；计算同一聚类簇中数据对象之间的内容相似值；计算同一聚类簇中数据对象之间的语义相似值；以及在同一聚类簇中，根据内容相似值和语义相似值确定相关数据，其中，内容相似值越大、语义相似值越大的数据对象互为相关数据的概率越大。

进一步地，计算数据对象的数据画像信息的步骤包括：计算数据对象的字符串长度、单词数、唯一值、非空值、最大长度、最小长度和值分布。

进一步地，计算同一聚类簇中数据对象之间的内容相似值的步骤包括：使用数据对象的值分布计算数据对象之间的内容相似值。

进一步地，计算同一聚类簇中任意两个数据对象之间的语义相似值的步骤包括：分别获取两个数据对象的语义信息，其中，语义信息包括数据对象的元数据名称和组内元数据名称；根据语义信息计算两个数据对象之间的语义相似值。

进一步地，根据语义信息计算两个数据对象之间的语义相似值的步骤包括：对数据对象的元数据名称和组内元数据名称分别进行分词处理和标准化处理，得到数据对象对应的词元素；采用WordNet模型计算两个数据对象对应的词元素之间的语义相似性；根据两个数据对象对应的词元素之间的语义相似性计算两个数据对象之间的语义相似值。

进一步地，根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇的步骤包括：对数据画像信息进行归一化处理，得到标准数据画像信息；根据标准数据画像信息的欧氏距离对数据对象集进行聚类分析，得到若干聚类簇。

进一步地，在同一聚类簇中，根据内容相似值和语义相似值确定相关数据的步骤包括：计算内容相似值与第一权重的乘积，得到第一乘积；计算语义相似值与第二权重的乘积，得到第二乘积；计算第一乘积和第二乘积的和得到综合相似值；当综合相似值大于预设相似值时，综合相似值对应的数据对象互为相关数据。

另一方面，为实现上述目的，本发明提供了一种相关数据的确定装置。

该相关数据的确定装置包括：获取模块，用于获取待分析的数据对象集，其中，数据对象集包括多个数据对象；第一计算模块，用于计算数据对象的数据画像信息；聚类模块，用于根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，其中，聚类簇包括若干数据对象；第二计算模块，用于计算同一聚类簇中数据对象之间的内容相似值；第二计算模块，用于计算同一聚类簇中数据对象之间的语义相似值；以及确定模块，用于在同一聚类簇中，根据内容相似值和语义相似值确定相关数据，其中，内容相似值越大、语义相似值越大的数据对象互为相关数据的概率越大。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的相关数据的确定方法、装置、计算机设备和存储介质，获取待分析的数据对象集，该数据对象集包括多个数据对象，计算每个数据对象的数据画像信息，得到针对数据对象的描述信息，然后根据该数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，每个聚类簇包括若干数据对象，以将数据画像信息相似性高的数据对象聚类为同一聚类簇，然后针对同一聚类簇，计算数据对象之间的内容相似值和语义相似值，最终根据内容相似值和语义相似值确定相关数据，将内容相似值大、语义相似值大的数据对象确定为相关数据。通过本发明，能够实现数据对象的自动分析，无需人工处理，且从数据对象的数据画像信息、内容相似程度和语义相似程度三个角度对数据对象的相关性进行识别，以将数据画像信息所体现的数据属性相近、数据值相近以及数据值的含义方面相近的数据对象确定为相关数据，提升相关数据确定的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一提供的相关数据的确定方法的流程图；

图2为本发明实施例二提供的相关数据的确定方法的流程图；

图3为本发明实施例三提供的相关数据的确定装置的框图；

图4为本发明实施例四提供的计算机设备的硬件结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现大数据场景下的相关数据的自动识别，本发明提供了一种相关数据的确定方法、装置、计算机设备和存储介质，在本发明提供的相关数据的确定方法中，可将大数据场景下生成的数据对象构建为数据对象集，自动确定数据对象集中各数据对象之间的关联性，具体地，获取到待分析的数据对象集后，针对其中的数据对象，计算其数据画像信息，然后根据数据画像信息对数据对象集进行聚类分析，将数据对象集中的对象划分为若干聚类簇，同一聚类簇中的数据对象的数据画像信息差异小，不同聚类簇中的数据对象的数据画像信息差异大，针对同一聚类簇，再计算数据对象之间的内容相似值和语义相似值，最终根据内容相似值和语义相似值两个方面确定相关数据，最终通过数据画像信息、内容相似值和语义相似值三个方面挖掘出数据对象集中的相关数据，实现了相关数据的自动识别。

关于本发明提供的相关数据的确定方法、装置、计算机设备和存储介质的具体实施例，将在下文中详细描述。

实施例一

本发明实施例一提供了一种相关数据的确定方法，通过该方法，能够实现大数据场景下的相关数据的自动识别，具体地，图1为本发明实施例一提供的相关数据的确定方法，如图1所示，该实施例提供的相关数据的确定方法包括如下的步骤S101至步骤S106。

步骤S101：获取待分析的数据对象集。

其中，数据对象集包括多个数据对象，该数据对象为结构数据表中的物理字段，具体可以为单个字段，也可以为多个字段，各物理字段可以属于同一数据表或库，也可以属于不同数据表或库，本申请对此并不限定。

步骤S102：计算数据对象的数据画像信息。

数据画像信息包括数据对象的属性、特征和/或标签等方面的信息，用于对数据对象进行描述的信息，可选地，数据画像信息包括字符串长度、单词数、唯一值、非空值、最大长度、最小长度和值分布等信息，以全面体现数据特征，有助于基于数据画像信息确定相关数据的准确性。

步骤S103：根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇。

其中，聚类簇包括若干数据对象。

具体地，采用现有技术中的中的聚类算法，以数据画像信息为分类条件进行聚类，可将在数据画像信息角度相关性高的数据对象聚为同一聚类簇。

例如，在一种实施例中，根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇的步骤包括：对数据画像信息进行归一化处理，得到标准数据画像信息，标准数据画像信息各个维度的数据均在0～1之间，方便数据处理，有利于提升后续聚类的准确性；根据标准数据画像信息的欧氏距离对数据对象集进行聚类分析，得到若干聚类簇，具体地，针对两个数据对象的数据画像信息计算其欧氏距离，然后根据欧氏距离进行聚类分析，使得欧氏距离小的数据对象被聚类为同一聚类簇，也即使数据画像信息相关的性高的数据聚为同一聚类簇，提升聚类的准确性。

步骤S104：计算同一聚类簇中数据对象之间的内容相似值。

两个数据对象之间的内容相似值是表征两个数据对象的值的相似程度。在该步骤S104中，针对同一聚类簇中的数据对象，计算数据对象之间的内容相似值，内容相似值越大，表明两个数据对象的值的相似程度越高。

例如，在一种实施例中，计算同一聚类簇中数据对象之间的内容相似值的步骤包括：使用数据对象的值分布计算数据对象之间的内容相似值。其中，数据对象的值分布包括值(作为名称)和该值在数据对象中的数量(名称属性)，在使用数据对象的值分布计算数据对象之间的内容相似值时，例如可通过非对称二元相似性算法进行计算，具体地，计算值分布中的名称相同的值的数量的和占值总量的比值作为内容相似值；又如，将数据对象的值分布进行图示，通过对比两个数据对象对应的值分布的图示的相似程度得到两个数据对象的值的分布图之间的差异，作为内容相似值。由于值分布能够体现数据内容的相同和差异，因此通过值分布来计算数据对象之间的内容相似值，提升内容相似值的计算准确性，进一步提升相关数据确定的准确性，同时计算过程无需比对数据对象中的所有值，减少计算的数据量。

步骤S105：计算同一聚类簇中数据对象之间的语义相似值。

两个数据对象之间的语义相似值是表征两个数据对象的值的含义的相似程度。在该步骤S105中，针对同一聚类簇中的数据对象，计算数据对象之间的语义相似值，语义相似值越大，表明两个数据对象的值所表征实际的含义相似程度越高。

例如，在一种实施例中，计算同一聚类簇中任意两个数据对象之间的语义相似值的步骤包括：分别获取两个数据对象的语义信息，其中，语义信息包括数据对象的元数据名称和组内元数据名称，元数据名称表示数据对象的含义，组内元数据名称表示数据对象中数据的含义；根据语义信息计算两个数据对象之间的语义相似值。其中，在根据语义信息计算两个数据对象之间的语义相似时，对数据对象的元数据名称和组内元数据名称分别进行分词处理和标准化处理，得到数据对象对应的词元素，其中，元数据名称和组内元数据名称分别可以为短语，对该短语进行分词处理后，得到的是包括若干词的词集，然后对词集合进行标准化处理，具体可包括去除无意义词，例如介词、连词等，还包括去除词的语法后缀，例如去除复数语法后缀“-s”和“-es”；采用WordNet模型计算两个数据对象对应的词元素之间的语义相似性，其中，WordNet模型包括按照单词的意义组成单词的网络，在单词网络中，可根据两个单词之间的网络距离计算两个词之间的语义相似性，两个单词之间的距离越小，语义相似性越大；根据两个数据对象对应的词元素之间的语义相似性计算两个数据对象之间的语义相似值，具体地，可计算两个数据对象对应的任意两个词元素之间的语义相似性，然后对计算得到的所有的语义相似性进行加和平均，即可得到两个数据对象之间的语义相似值。由于数据对象的元数据名称和组内元数据名称能够准确的体现数据对象的语义，因此，提升语义相似值的计算准确性，进一步提升相关数据确定的准确性。进一步可选地，语义信息还包括数据对象的简介，摘要和备注等，以增加数据对象语义体现信息，提升语义相似值的计算准确性。

步骤S106：在同一聚类簇中，根据内容相似值和语义相似值确定相关数据。

其中，内容相似值越大、语义相似值越大的数据对象互为相关数据的概率越大。例如，在一种实施例中，在同一聚类簇中，根据内容相似值和语义相似值确定相关数据的步骤包括：计算内容相似值与第一权重的乘积，得到第一乘积；计算语义相似值与第二权重的乘积，得到第二乘积；计算第一乘积和第二乘积的和得到综合相似值；当综合相似值大于预设相似值时，综合相似值对应的数据对象互为相关数据。

在该实施例提供的相关数据的确定方法中，获取待分析的数据对象集，该数据对象集包括多个数据对象，计算每个数据对象的数据画像信息，得到针对数据对象的描述信息，然后根据该数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，每个聚类簇包括若干数据对象，以将数据画像信息相似性高的数据对象聚类为同一聚类簇，然后针对同一聚类簇，计算数据对象之间的内容相似值和语义相似值，最终根据内容相似值和语义相似值确定相关数据，将内容相似值大、语义相似值大的数据对象确定为相关数据。采用该实施例提供的相关数的确定方法，能够实现数据对象的自动分析，无需人工处理，且从数据对象的数据画像信息、内容相似程度和语义相似程度三个角度对数据对象的相关性进行识别，以将数据画像信息所体现的数据属性相近、数据值相近以及数据值的含义方面相近的数据对象确定为相关数据，提升相关数据确定的准确性。

实施例二

本发明实施例二提供了一种优选地相关数据的确定方法，相关技术特征和对应的技术效果可参考上述实施例一，该实施例在众多数据对象中基于数据对象的内容和元数据语义计算相似性，得到多个数据对象的相关数据，为数据管理提高效率，免去人工分析的繁琐流程，挖掘数据的潜在价值。具体地，图2为本发明实施例二提供的相关数据的确定方法，如图2所示，该实施例提供的确定方法包括如下的步骤S201至步骤S207。

步骤S201：获取待分析的数据对象集中所有数据对象的元数据信息和数据画像信息。

步骤S202：标准化数据对象的数据画像信息。

其中，数据画像信息表示数据的各个维度的度量，需归一化到0～1区间。

步骤S203：使用欧式距离算法和kmeans聚类算法对所有归一化后的数据画像信息进行聚类分析，对数据对象进行分组，同一组(也即同一聚类簇)的数据对象在数据内容上的相似性大，并且也可计算得到数据对象在数据画像维度信息上的空间距离(也即欧氏距离)。

步骤S204：对已经分好类的组内数据对象(也即同一聚类簇的数据对象)进行数据内容比对，使用数据画像信息中的值分布，通过非对称二元相似性算法计算得到数据对象的相似性度量，过滤掉相似性低的数据对象，最后得到存在数据内容相似性的一组数据对象，相似性度量作为数据内容相似值。

步骤S205：对上一步生成的同一组数据对象进行语义相似性分析，使用数据对象的元数据名称和组内元数据名称，经过数据分词和标准化，在WordNet模型中，计算数据对象之间元数据名称和组内元数据名称的语义相似性的度量值作为语义相似值。

步骤S206：综合分析，由步骤2044和步骤205可以分别获得数据对象之间在数据内容和语义上的相似度，在该步骤S206中，需要通过这两个维度的值，计算出数据综合相似性，由于语义相似值与内容相似值计算精度和偏差不同，所以使用权重平衡语义相似值与内容相似值，再通过计算平均值得到综合相似度量值。

步骤S207：计算结果，由步骤203找到存在相似性的数据对象(位于同一聚类簇)，再由步骤204过滤掉数据内容相似性较低的数据对象，得到存在基于内容相关性的一组数据对象。再由步骤205和步骤206根据元数据计算语义相似值和综合相似值，最后可得存在相关性的一组数据对象，通过数据对象彼此之间的距离值，数据对象之间的内容相似值，数据对象之间的语义相似值，数据对象之间的综合相似值描述数据对象之间的相关性。

例如，在一个数据对象集中，包括数据对象a_1、a_2和a_3，获取到的数据对象a_1、a_2和a_3的数据画像信息分别如下：

a_1:{

"length":10,

"wordNum":2,

"uniq":0.9,

"notNull":1,

"max":"20",

"min":"2",

"valueMap":{

"hello word":1000,

"hello":10,

"like":10

}

a_2:{

"length":11,

"wordNum":2,

"uniq":0.8,

"notNull":1,

"max":"20",

"min":"3",

"valueMap":{

"hello word":100,"hello":1,

"Other":1

}

a_3:{

"length":13,

"wordNum":3,

"uniq":0.7,

"notNull":0.9,

"max":"20",

"min":"3",

"valueMap":{

"fa":1000,

"lfdsf":10

}

获取到的数据对象a_1、a_2和a_3的元数据分别如下：

·a_1:message

·a_2:information

·a_3:note

在该数据对象集中确定相关数据时，执行如下的步骤：

1.根据数据画像信息会计算得到a_1，a_2与a_3存在数据相似性，并且得到距离值a_1～a_2＝0.001，a_1～a_3＝0.2，a_2～a_3＝0.02；

2.根据值分布相似度计算得到a_1和a_2存在相似性，a_3被过滤掉，a_1与a_2内容相似值等于0.98；

3.根据语义相似度计算得到，a_1：message与a_2：information语义相似值为0.9；

4.设置语义与内容相似度权重均为0.5，综合分析得到，综合相似度等于0.94；

5.结果：计算得到a_1与a_2存在相关性，互为相关数据，相关性为0.94。

实施例三

对应于上述实施例一，本发明实施例三提供了一种相关数据的确定装置，相关技术特征和对应的技术效果可参考上述实施例一和实施例二，该处不再赘述，图3为本发明实施例三提供的相关数据的确定装置的框图，如图3所示，该装置包括：获取模块301、第一计算模块302、聚类模块303、第二计算模块304、第二计算模块305和确定模块306。

获取模块301用于获取待分析的数据对象集，其中，数据对象集包括多个数据对象；第一计算模块302用于计算数据对象的数据画像信息；聚类模块303，用于根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇，其中，聚类簇包括若干数据对象；第二计算模块304，用于计算同一聚类簇中数据对象之间的内容相似值；第三计算模块305，用于计算同一聚类簇中数据对象之间的语义相似值；以及确定模块306，用于在同一聚类簇中，根据内容相似值和语义相似值确定相关数据，其中，内容相似值越大、语义相似值越大的数据对象互为相关数据的概率越大。

可选地，在一种实施例中，第一计算模块302在计算数据对象的数据画像信息时，具体执行的步骤包括：计算数据对象的字符串长度、单词数、唯一值、非空值、最大长度、最小长度和值分布。

可选地，在一种实施例中，第二计算模块304在计算同一聚类簇中数据对象之间的内容相似值时，具体执行的步骤包括：使用数据对象的值分布计算数据对象之间的内容相似值。

可选地，在一种实施例中，第三计算模块305在计算同一聚类簇中任意两个数据对象之间的语义相似值时，具体执行的步骤包括：分别获取两个数据对象的语义信息，其中，语义信息包括数据对象的元数据名称和组内元数据名称；根据语义信息计算两个数据对象之间的语义相似值。

可选地，在一种实施例中，第三计算模块305在根据语义信息计算两个数据对象之间的语义相似值时，具体执行的步骤包括：对数据对象的元数据名称和组内元数据名称分别进行分词处理和标准化处理，得到数据对象对应的词元素；采用WordNet模型计算两个数据对象对应的词元素之间的语义相似性；根据两个数据对象对应的词元素之间的语义相似性计算两个数据对象之间的语义相似值。

可选地，在一种实施例中，聚类模块303在根据数据画像信息对数据对象集进行聚类分析，得到若干聚类簇时，具体执行的步骤包括：对数据画像信息进行归一化处理，得到标准数据画像信息；根据标准数据画像信息的欧氏距离对数据对象集进行聚类分析，得到若干聚类簇。

可选地，在一种实施例中，确定模块306在同一聚类簇中，根据内容相似值和语义相似值确定相关数据时，具体执行的步骤包括：计算内容相似值与第一权重的乘积，得到第一乘积；计算语义相似值与第二权重的乘积，得到第二乘积；计算第一乘积和第二乘积的和得到综合相似值；当综合相似值大于预设相似值时，综合相似值对应的数据对象互为相关数据。

实施例四

本实施例四还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，本实施例的计算机设备01至少包括但不限于：可通过系统总线相互通信连接的存储器011、处理器012，如图4所示。需要指出的是，图4仅示出了具有组件存储器011和处理器012的计算机设备01，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器011可以是计算机设备01的内部存储单元，例如该计算机设备01的硬盘或内存。在另一些实施例中，存储器011也可以是计算机设备01的外部存储设备，例如该计算机设备01上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中，存储器011通常用于存储安装于计算机设备01的操作系统和各类应用软件，例如实施例三的相关数据的确定装置的程序代码等。此外，存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器012在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中，处理器012用于运行存储器011中存储的程序代码或者处理数据，例如相关数据的确定方法等。

实施例五

本实施例五还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储相关数据的确定装置，被处理器执行时实现实施例一的相关数据的确定方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种相关数据的确定方法，其特征在于，包括：

获取待分析的数据对象集，其中，所述数据对象集包括多个数据对象；

计算所述数据对象的数据画像信息；

根据所述数据画像信息对所述数据对象集进行聚类分析，得到若干聚类簇，其中，所述聚类簇包括若干所述数据对象；

计算同一所述聚类簇中所述数据对象之间的内容相似值；

计算同一所述聚类簇中所述数据对象之间的语义相似值；以及

在同一所述聚类簇中，根据所述内容相似值和所述语义相似值确定相关数据，其中，所述内容相似值越大、所述语义相似值越大的所述数据对象互为相关数据的概率越大。

2.根据权利要求1所述的相关数据的确定方法，其特征在于，计算所述数据对象的数据画像信息的步骤包括：

计算所述数据对象的字符串长度、单词数、唯一值、非空值、最大长度、最小长度和值分布。

3.根据权利要求2所述的相关数据的确定方法，其特征在于，计算同一所述聚类簇中所述数据对象之间的内容相似值的步骤包括：

使用所述数据对象的值分布计算所述数据对象之间的内容相似值。

4.根据权利要求1所述的相关数据的确定方法，其特征在于，计算同一所述聚类簇中任意两个所述数据对象之间的语义相似值的步骤包括：

分别获取两个所述数据对象的语义信息，其中，所述语义信息包括所述数据对象的元数据名称和组内元数据名称；

根据所述语义信息计算两个所述数据对象之间的语义相似值。

5.根据权利要求4所述的相关数据的确定方法，其特征在于，根据所述语义信息计算两个所述数据对象之间的语义相似值的步骤包括：

对所述数据对象的元数据名称和组内元数据名称分别进行分词处理和标准化处理，得到所述数据对象对应的词元素；

采用WordNet模型计算两个所述数据对象对应的词元素之间的语义相似性；

根据两个所述数据对象对应的词元素之间的语义相似性计算两个所述数据对象之间的语义相似值。

6.根据权利要求1所述的相关数据的确定方法，其特征在于，根据所述数据画像信息对所述数据对象集进行聚类分析，得到若干聚类簇的步骤包括：

对所述数据画像信息进行归一化处理，得到标准数据画像信息；

根据标准数据画像信息的欧氏距离对所述数据对象集进行聚类分析，得到若干聚类簇。

7.根据权利要求1所述的相关数据的确定方法，其特征在于，在同一所述聚类簇中，根据所述内容相似值和所述语义相似值确定相关数据的步骤包括：

计算所述内容相似值与第一权重的乘积，得到第一乘积；

计算所述语义相似值与第二权重的乘积，得到第二乘积；

计算所述第一乘积和第二乘积的和得到综合相似值；

当所述综合相似值大于预设相似值时，所述综合相似值对应的所述数据对象互为相关数据。

8.一种相关数据的确定装置，其特征在于，包括：

获取模块，用于获取待分析的数据对象集，其中，所述数据对象集包括多个数据对象；

第一计算模块，用于计算所述数据对象的数据画像信息；

聚类模块，用于根据所述数据画像信息对所述数据对象集进行聚类分析，得到若干聚类簇，其中，所述聚类簇包括若干所述数据对象；

第二计算模块，用于计算同一所述聚类簇中所述数据对象之间的内容相似值；

第二计算模块，用于计算同一所述聚类簇中所述数据对象之间的语义相似值；以及

确定模块，用于在同一所述聚类簇中，根据所述内容相似值和所述语义相似值确定相关数据，其中，所述内容相似值越大、所述语义相似值越大的所述数据对象互为相关数据的概率越大。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。