CN114168687A

CN114168687A - 建立汽车行业数据关联网络的方法和系统

Info

Publication number: CN114168687A
Application number: CN202111365891.7A
Authority: CN
Inventors: 张鹏; 朱悦; 王英资; 楚思思; 陈辰; 侯珏; 吴淑月; 张永嘉
Original assignee: China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Current assignee: China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-03-11

Abstract

本发明实施例提出一种建立汽车行业数据关联网络的方法和系统。该方法包括：统一汽车行业数据库中每项数据各个字段名称，得到字段词汇集；将数据字段名称与字段词汇集进行对比，得到字段名称词汇表；通过字段名称词汇表计算字段名称相似度矩阵，根据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵，将名称相似度矩阵与应用场景相似度矩阵加权求和，得到数据关联度矩阵；根据数据关联度矩阵确定数据关联关系矩阵，由数据关联关系矩阵形成汽车行业数据关联网络。本发明实施例从数据内容以及数据应用场景两个维度确定数据的关联性，建立汽车数据关联网络。

Description

建立汽车行业数据关联网络的方法和系统

技术领域

本发明属于数据处理技术领域，具体涉及一种建立汽车行业数据关联网络的方法和系统。

背景技术

目前，数据关联的建立主要是基于关联规则相关算法，最经典的是Apriori算法与FP-Growth算法。

1、Apriori算法的主要思路为：(1)找频繁项集，利用频繁项集的非空子集都是频繁的项集性质，先找频繁项集的侯选集，对侯选集中计数，大于支持度的就是频繁集；(2)由频繁项集生成关联规则。参考文献见Agrawal R.Srikant R.Fast algorithms for miningassociation rules.In Proceedings of the 20th International Conference on VeryLarge Databases[M].Santiago，Chile，1994:487～499。

2、FP-Growth算法的主要思路为：采取分而治之的策略，第一次扫描后，把数据库中的频繁集压缩进一颗频繁模式树(FP-Tree)，同时依然保留其中的关联信息，再将FP-Tree分化成一些条件库，每个库和一个长度为1的频繁集相关，然后再对这些条件库分别进行挖掘。参考文献见HAN J W，KAMBER M，PEI J.数据挖掘：概念与技术[M].范明，孟小峰译.第3版.北京：机械工业出版社，2017:158-169。

随着汽车新四化的发展，汽车行业数据呈指数级增长，建立汽车行业数据关联网络可以有效解决数据孤岛问题，是汽车大数据价值挖掘的基础。目前还没有汽车行业数据关联网络的方法，汽车行业数据库存在数据字段数量大、名称不规范、数据范围广等问题，传统的数据关联针对同一范围内数据关联的建立，直接用于汽车行业数据关联网络的建立效果不佳。

发明内容

本发明实施例提出的建立汽车行业数据关联网络的方法和系统，统一汽车行业数据库中每项数据中各个字段名称，从数据内容以及数据应用场景两个维度确定数据的关联性，建立汽车数据关联网络。

第一方面，本发明实施例提出一种建立汽车行业数据关联网络的方法，包括：

统一汽车行业数据库D＝{D₁,D₂,…D_N}中每项数据各个字段名称，得到字段词汇集{C'₁,C'₂,…,C'_n}；提取汽车行业数据库中各项数据的字段名称，与字段词汇集中字段名称进行对比，统计得到字段名称词汇表L_N×n；

通过所述字段名称词汇表L_N×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N，根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2_N×N，将名称相似度矩阵E1_N×N与应用场景相似度矩阵E2_N×N加权求和，得到汽车行业数据库各数据的数据关联度矩阵E_N×N；

根据所述数据关联度矩阵E_N×N确定汽车行业数据库各数据的数据关联关系矩阵E'_N×N，由数据关联关系矩阵E'_N×N形成汽车行业数据关联网络。

优选的，得到字段词汇集{C'₁,C'₂,…,C'_n}的步骤包括：

提取汽车行业数据库D＝{D₁,D₂,…D_N}中所有数据的所有字段名称，形成初始字段词汇集{C₁,C₂,…,C_m}；

将初始字段词汇集中每个字段名称按照字符进行分割，得到初始字段词汇集的字段名称字符集

若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th₁，将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称，若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个；否则不做处理；

去掉重复的字段名称，得到合并字段字汇集{C₁,C₂,…,C_m-1}；

重复上述步骤，直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th₁停止重复，得到字段词汇集{C'₁,C'₂,…,C'_n}。

优选的，阈值th₁用于判断两个字段名称的相似性，取值范围在0.5到0.75之间。

优选的，得到汽车行业数据库字段名称词汇表L_N×n的步骤包括：

提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'₁,C'₂,…,C'_n}中的第c个字段名称进行比较，如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名C'_c＝{C'₁,C'₂,…C'_dc}包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th₁，则L_i×c＝1，否则L_i×c＝0；

应用上述步骤中的方法遍历字段词汇集{C'₁,C'₂,…,C'_n}中的所有字段名称，获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行L_i，最终得到汽车行业数据库字段名称词汇表L_N×n。

优选的，计算字段名称相似度矩阵E1_N×N的步骤包括：

通过欧式距离和字段名称词汇表L_N×n计算汽车行业数据库中D_k、D_j两项子数据库的字段名称相似度E1_(k,j)，即：

按照上述步骤的方法，计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N。

优选的，计算应用场景相似度矩阵E2_N×N的步骤包括：

对汽车行业数据库中各项数据应用场景描述语句进行分词，得到每项数据应用场景描述语言的词向量；

将所有数据的词向量进行融合去重，得到汽车行业数据库词向量总集；

依据所述词向量和所述词向量总集，按照词频-逆文本频率模型，获得词频向量集F_N×M；

通过欧式距离计算汽车行业数据库中D_k、D_j两项数据字段名称相似度E2_(k,j)，即：

重复上述步骤，得到汽车行业数据库中各项数据应用场景相似度矩阵E2_N×N。

优选的，数据关联度矩阵E_N×N的计算方法为：

E_N×N＝λ₁E1_N×N+λ₂E2_N×N，其中λ₁+λ₂＝1且λ₁≠0且λ₂≠0。

优选的，数据关联关系矩阵E'_N×N的计算方法为：当E_(e,f)>th₂时，数据项D_e与数据项D_f存在关联，E'_(e,f)＝1；否则E'_(e,f)＝0；重复上述步骤，得到数据关联关系矩阵E'_N×N。

优选的，阈值th₂用来判定两项数据是否存在关联性，阈值th₂取值范围为0.6-0.7。

第二方面，本发明实施例提出一种建立汽车行业数据关联网络的系统，包括：

数据字段标准化模块，所述数据字段标准化模块统一汽车行业数据库D＝{D₁,D₂,…D_N}中每项数据各个字段名称，得到字段词汇集{C'₁,C'₂,…,C'_n}；提取汽车行业数据库中各项数据的字段名称，与字段词汇集中字段名称进行对比，统计得到字段名称词汇表L_N×n；

数据关联度矩阵求解模块，所述数据关联度矩阵求解模块通过所述字段名称词汇表L_N×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N，根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2_N×N，将名称相似度矩阵E1_N×N与应用场景相似度矩阵E2_N×N加权求和，得到汽车行业数据库各数据的数据关联度矩阵E_N×N；

数据关联网络建立模块，所述数据关联网络建立模块根据所述数据关联度矩阵E_N×N确定汽车行业数据库各数据的数据关联关系矩阵E'_N×N，由数据关联关系矩阵E'_N×N形成汽车行业数据关联网络。

本发明实施例与现有技术相比，具体有益效果如下：

1、统一汽车行业数据库中每项数据各个字段名称，为基于主数据的管理提供技术保障。

2、建立汽车数据关联网络，实现基于数据内容及数据应用场景的关联性分析，通过关联性探索融合应用的新场景，为业务发展提供更多数据选择，提高数据利用率，加速数据价值释放。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的建立汽车行业关联网络的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

下面将结合参考附图来详细说明本发明实施例。

结合图1，本发明实施例提出一种建立汽车行业关联网络的方法，具体步骤包括：

步骤S100，统一汽车行业数据库D＝{D₁,D₂,…D_N}中每项数据各个字段名称，得到字段词汇集{C'₁,C'₂,…,C'_n}；提取汽车行业数据库中各项数据的字段名称，与字段词汇集{C'₁,C'₂,…,C'_n}中字段名称进行对比，统计得到字段名称词汇表L_N×n。

具体的，统一汽车行业数据库中每项数据各个字段名称，得到字段词汇集{C'₁,C'₂,…,C'_n}的步骤包括：

步骤S111，提取汽车行业数据库D＝{D₁,D₂,…D_N}中所有数据的所有字段名称，形成初始字段词汇集{C₁,C₂,…,C_m}。

其中，D₁、D₂……D_N为汽车行业数据库中的数据，N为汽车行业数据库中数据总项数；C₁、C₂……C_m为汽车行业数据库中数据的字段名称，m为汽车行业数据库中所有数据拥有字段名称的总个数。

步骤S112，将初始字段词汇集中每个字段名称按照字符进行分割，得到初始字段词汇集的字段名称字符集

其中，

为字段名称字符集C_a包含的字符，d_a为字段名称字符集C_a包含字符个数。

步骤S113，若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th₁，将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称，若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个；否则不做处理，即：

如果

且d_a<d_b，则C_b＝C_a；

如果

且d_a＝d_b，则C_b＝C_a或C_a＝C_b。

其中，阈值th₁用于判断两个字段名称的相似性，取值范围在0.5到0.75之间。

步骤S114，去掉重复的字段名称，得到合并字段字汇集{C₁,C₂,…,C_m-1}。

步骤S115，重复步骤S113与步骤114，直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th₁停止重复，得到字段词汇集{C'₁,C'₂,…,C'_n}，其中n为最终汽车行业数据库中所有数据拥有字段名称的总个数。

具体的，提取汽车行业数据库中各项数据的字段名称，与字段词汇集{C'₁,C'₂,…,C'_n}中字段名称进行对比，统计得到汽车行业数据库字段名称词汇表L_N×n的步骤包括：

步骤S121，提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'₁,C'₂,…,C'_n}中的第c个字段名称进行比较，如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名

包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th₁，则L_i×c＝1，否则L_i×c＝0。

步骤S122，应用步骤S121中的方法遍历字段词汇集{C'₁,C'₂,…,C'_n}中的所有字段名称，获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行L_i。

步骤S123，重复步骤S121与步骤S122，得到汽车行业数据库字段名称词汇表L_N×n。其中，N为汽车行业数据库中数据总项数，n为最终汽车行业数据库中所有数据拥有字段名称的总个数。

步骤S200，通过所述字段名称词汇表L_N×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N，根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2_N×N，将名称相似度矩阵E1_N×N与应用场景相似度矩阵E2_N×N加权求和，得到汽车行业数据库各数据的数据关联度矩阵E_N×N。

具体的，通过所述字段名称词汇表L_N×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N的步骤包括：

步骤S211，通过欧式距离和字段名称词汇表L_N×n计算汽车行业数据库中D_k、D_j两项子数据库的字段名称相似度E1_(k,j)，即：

步骤S212，按照上述步骤的方法，计算汽车行业数据库中各项数据字段名称相似度矩阵E1_N×N。其中，N为汽车行业数据库中数据总项数。

具体的，根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2_N×N的步骤包括：

步骤S221，将汽车行业数据库中各项数据应用场景描述语句信息S＝{S₁,S₂,…S_N}运用jieba库(Pathon语言的中文分词库)进行分词，去除标点以及停用词，得到每项数据应用场景描述语言的词向量S₁＝{s₁,s₂,…}。可以理解的是，分词库不限于jieba库。

步骤S222，将汽车行业数据库中所有数据应用场景描述语句按照步骤S221进行处理，并将所有数据的词向量进行融合去重，得到汽车行业数据库词向量总集V＝{v₁,v₂,…v_M}，其中M为汽车行业数据库词向量总集中词语的总个数。

步骤S223，依据所有数据应用场景描述语言的词向量以及汽车行业数据库词向量总集，并按照TF-IDF(词频-逆文本频率模型)的方法，获得词频向量集F_N×M。

步骤S224，通过欧式距离计算汽车行业数据库中D_k、D_j两项数据字段名称相似度E2_(k,j)，即：

具体的，将名称相似度矩阵E1_N×N与应用场景相似度矩阵E2_N×N加权求和，得到汽车行业数据库各数据的数据关联度矩阵E_N×N的计算方法为：

步骤S300，根据所述数据关联度矩阵E_N×N确定汽车行业数据库各数据的数据关联关系矩阵E'_N×N，由数据关联关系矩阵E'_N×N形成汽车行业数据关联网络。

具体的，当汽车行业数据库中两项数据之间的关联度大于阈值th₂时，两项数据存在关联，即当数据关联关系矩阵E'_N×N中某项数据值大于阈值th₂时，该项数据代表的两项数据存在关联。汽车行业数据库各数据的数据关联关系矩阵为E'_N×N，当E_(e,f)>th₂时，数据项D_e与数据项D_f存在关联，E'_(e,f)＝1；否则E'_(e,f)＝0；重复上述步骤，得到数据关联关系矩阵E'_N×N。其中，阈值th₂用来判定两项数据是否存在关联性，阈值th₂取值范围为0.6-0.7。

利用Gephi工具绘制汽车行业数据关联网络。以汽车行业数据库中各项数据为节点，若两项数据在数据关联关系矩阵中的值为1，则绘制线段将代表两项数据的节点连接，否则不连接；重复上述步骤，得到数据关联网络。

本发明另一实施例中提出一种建立汽车行业数据关联网络的系统，包括：

本实施例提供的建立汽车行业数据关联网络的系统可执行任一实施例提供的建立汽车行业数据关联网络的方法，具备相应的技术效果，此次不再赘述。

应该理解的是，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种建立汽车行业数据关联网络的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，得到字段词汇集{C'₁,C'₂,…,C'_n}的步骤包括：

将初始字段词汇集{C₁,C₂,…,C_m}中每个字段名称按照字符进行分割，得到初始字段词汇集的字段名称字符集

3.根据权利要求2所述的方法，其特征在于，阈值th₁用于判断两个字段名称的相似性，取值范围在0.5到0.75之间。

4.根据权利要求1所述的方法，其特征在于，得到汽车行业数据库字段名称词汇表L_N×n的步骤包括：

提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'₁,C'₂,…,C'_n}中的第c个字段名称进行比较，如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名

包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th₁，则L_i×c＝1否则L_i×c＝0；

5.根据权利要求1所述的方法，其特征在于，计算字段名称相似度矩阵E1_N×N的步骤包括：

6.根据权利要求5所述的方法，其特征在于，计算应用场景相似度矩阵E2_N×N的步骤包括：

7.根据权利要求6所述的方法，其特征在于，数据关联度矩阵E_N×N的计算方法为：

8.根据权利要求1所述的方法，其特征在于，数据关联关系矩阵E'_N×N的计算方法为：当E_(e,f)>th₂时，数据项D_e与数据项D_f存在关联，E'_(e,f)＝1；否则E'_(e,f)＝0；重复上述步骤，得到数据关联关系矩阵E'_N×N。

9.根据权利要求8所述的方法，其特征在于，阈值th₂用来判定两项数据是否存在关联性，阈值th₂取值范围为0.6-0.7。

10.一种建立汽车行业数据关联网络的系统，其特征在于，包括：