CN114168687A - 建立汽车行业数据关联网络的方法和系统 - Google Patents

建立汽车行业数据关联网络的方法和系统 Download PDF

Info

Publication number
CN114168687A
CN114168687A CN202111365891.7A CN202111365891A CN114168687A CN 114168687 A CN114168687 A CN 114168687A CN 202111365891 A CN202111365891 A CN 202111365891A CN 114168687 A CN114168687 A CN 114168687A
Authority
CN
China
Prior art keywords
data
field
automobile industry
matrix
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111365891.7A
Other languages
English (en)
Inventor
张鹏
朱悦
王英资
楚思思
陈辰
侯珏
吴淑月
张永嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Automotive Technology and Research Center Co Ltd
Automotive Data of China Tianjin Co Ltd
Original Assignee
China Automotive Technology and Research Center Co Ltd
Automotive Data of China Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Automotive Technology and Research Center Co Ltd, Automotive Data of China Tianjin Co Ltd filed Critical China Automotive Technology and Research Center Co Ltd
Priority to CN202111365891.7A priority Critical patent/CN114168687A/zh
Publication of CN114168687A publication Critical patent/CN114168687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种建立汽车行业数据关联网络的方法和系统。该方法包括:统一汽车行业数据库中每项数据各个字段名称,得到字段词汇集;将数据字段名称与字段词汇集进行对比,得到字段名称词汇表;通过字段名称词汇表计算字段名称相似度矩阵,根据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵,将名称相似度矩阵与应用场景相似度矩阵加权求和,得到数据关联度矩阵;根据数据关联度矩阵确定数据关联关系矩阵,由数据关联关系矩阵形成汽车行业数据关联网络。本发明实施例从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。

Description

建立汽车行业数据关联网络的方法和系统
技术领域
本发明属于数据处理技术领域,具体涉及一种建立汽车行业数据关联网络的方法和系统。
背景技术
目前,数据关联的建立主要是基于关联规则相关算法,最经典的是Apriori算法与FP-Growth算法。
1、Apriori算法的主要思路为:(1)找频繁项集,利用频繁项集的非空子集都是频繁的项集性质,先找频繁项集的侯选集,对侯选集中计数,大于支持度的就是频繁集;(2)由频繁项集生成关联规则。参考文献见Agrawal R.Srikant R.Fast algorithms for miningassociation rules.In Proceedings of the 20th International Conference on VeryLarge Databases[M].Santiago,Chile,1994:487~499。
2、FP-Growth算法的主要思路为:采取分而治之的策略,第一次扫描后,把数据库中的频繁集压缩进一颗频繁模式树(FP-Tree),同时依然保留其中的关联信息,再将FP-Tree分化成一些条件库,每个库和一个长度为1的频繁集相关,然后再对这些条件库分别进行挖掘。参考文献见HAN J W,KAMBER M,PEI J.数据挖掘:概念与技术[M].范明,孟小峰译.第3版.北京:机械工业出版社,2017:158-169。
随着汽车新四化的发展,汽车行业数据呈指数级增长,建立汽车行业数据关联网络可以有效解决数据孤岛问题,是汽车大数据价值挖掘的基础。目前还没有汽车行业数据关联网络的方法,汽车行业数据库存在数据字段数量大、名称不规范、数据范围广等问题,传统的数据关联针对同一范围内数据关联的建立,直接用于汽车行业数据关联网络的建立效果不佳。
发明内容
本发明实施例提出的建立汽车行业数据关联网络的方法和系统,统一汽车行业数据库中每项数据中各个字段名称,从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。
第一方面,本发明实施例提出一种建立汽车行业数据关联网络的方法,包括:
统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n
通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
优选的,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm};
将初始字段词汇集中每个字段名称按照字符进行分割,得到初始字段词汇集的字段名称字符集
Figure BDA0003360577420000031
若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;
去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1};
重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n}。
优选的,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
优选的,得到汽车行业数据库字段名称词汇表LN×n的步骤包括:
提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,…,C'n}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名C'c={C'1,C'2,…C'dc}包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则Li×c=1,否则Li×c=0;
应用上述步骤中的方法遍历字段词汇集{C'1,C'2,…,C'n}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行Li,最终得到汽车行业数据库字段名称词汇表LN×n
优选的,计算字段名称相似度矩阵E1N×N的步骤包括:
通过欧式距离和字段名称词汇表LN×n计算汽车行业数据库中Dk、Dj两项子数据库的字段名称相似度E1(k,j),即:
Figure BDA0003360577420000041
按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N
优选的,计算应用场景相似度矩阵E2N×N的步骤包括:
对汽车行业数据库中各项数据应用场景描述语句进行分词,得到每项数据应用场景描述语言的词向量;
将所有数据的词向量进行融合去重,得到汽车行业数据库词向量总集;
依据所述词向量和所述词向量总集,按照词频-逆文本频率模型,获得词频向量集FN×M
通过欧式距离计算汽车行业数据库中Dk、Dj两项数据字段名称相似度E2(k,j),即:
Figure BDA0003360577420000042
重复上述步骤,得到汽车行业数据库中各项数据应用场景相似度矩阵E2N×N
优选的,数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N2E2N×N,其中λ12=1且λ1≠0且λ2≠0。
优选的,数据关联关系矩阵E'N×N的计算方法为:当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N
优选的,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
第二方面,本发明实施例提出一种建立汽车行业数据关联网络的系统,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
本发明实施例与现有技术相比,具体有益效果如下:
1、统一汽车行业数据库中每项数据各个字段名称,为基于主数据的管理提供技术保障。
2、建立汽车数据关联网络,实现基于数据内容及数据应用场景的关联性分析,通过关联性探索融合应用的新场景,为业务发展提供更多数据选择,提高数据利用率,加速数据价值释放。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的建立汽车行业关联网络的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
下面将结合参考附图来详细说明本发明实施例。
结合图1,本发明实施例提出一种建立汽车行业关联网络的方法,具体步骤包括:
步骤S100,统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集{C'1,C'2,…,C'n}中字段名称进行对比,统计得到字段名称词汇表LN×n
具体的,统一汽车行业数据库中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
步骤S111,提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm}。
其中,D1、D2……DN为汽车行业数据库中的数据,N为汽车行业数据库中数据总项数;C1、C2……Cm为汽车行业数据库中数据的字段名称,m为汽车行业数据库中所有数据拥有字段名称的总个数。
步骤S112,将初始字段词汇集中每个字段名称按照字符进行分割,得到初始字段词汇集的字段名称字符集
Figure BDA0003360577420000071
其中,
Figure BDA0003360577420000072
为字段名称字符集Ca包含的字符,da为字段名称字符集Ca包含字符个数。
步骤S113,若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理,即:
如果
Figure BDA0003360577420000073
且da<db,则Cb=Ca
如果
Figure BDA0003360577420000074
且da=db,则Cb=Ca或Ca=Cb
其中,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
步骤S114,去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1}。
步骤S115,重复步骤S113与步骤114,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n},其中n为最终汽车行业数据库中所有数据拥有字段名称的总个数。
具体的,提取汽车行业数据库中各项数据的字段名称,与字段词汇集{C'1,C'2,…,C'n}中字段名称进行对比,统计得到汽车行业数据库字段名称词汇表LN×n的步骤包括:
步骤S121,提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,…,C'n}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名
Figure BDA0003360577420000081
包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则Li×c=1,否则Li×c=0。
步骤S122,应用步骤S121中的方法遍历字段词汇集{C'1,C'2,…,C'n}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行Li
步骤S123,重复步骤S121与步骤S122,得到汽车行业数据库字段名称词汇表LN×n。其中,N为汽车行业数据库中数据总项数,n为最终汽车行业数据库中所有数据拥有字段名称的总个数。
步骤S200,通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
具体的,通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N的步骤包括:
步骤S211,通过欧式距离和字段名称词汇表LN×n计算汽车行业数据库中Dk、Dj两项子数据库的字段名称相似度E1(k,j),即:
Figure BDA0003360577420000091
步骤S212,按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N。其中,N为汽车行业数据库中数据总项数。
具体的,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N的步骤包括:
步骤S221,将汽车行业数据库中各项数据应用场景描述语句信息S={S1,S2,…SN}运用jieba库(Pathon语言的中文分词库)进行分词,去除标点以及停用词,得到每项数据应用场景描述语言的词向量S1={s1,s2,…}。可以理解的是,分词库不限于jieba库。
步骤S222,将汽车行业数据库中所有数据应用场景描述语句按照步骤S221进行处理,并将所有数据的词向量进行融合去重,得到汽车行业数据库词向量总集V={v1,v2,…vM},其中M为汽车行业数据库词向量总集中词语的总个数。
步骤S223,依据所有数据应用场景描述语言的词向量以及汽车行业数据库词向量总集,并按照TF-IDF(词频-逆文本频率模型)的方法,获得词频向量集FN×M
步骤S224,通过欧式距离计算汽车行业数据库中Dk、Dj两项数据字段名称相似度E2(k,j),即:
Figure BDA0003360577420000101
重复上述步骤,得到汽车行业数据库中各项数据应用场景相似度矩阵E2N×N
具体的,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N2E2N×N,其中λ12=1且λ1≠0且λ2≠0。
步骤S300,根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
具体的,当汽车行业数据库中两项数据之间的关联度大于阈值th2时,两项数据存在关联,即当数据关联关系矩阵E'N×N中某项数据值大于阈值th2时,该项数据代表的两项数据存在关联。汽车行业数据库各数据的数据关联关系矩阵为E'N×N,当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N。其中,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
利用Gephi工具绘制汽车行业数据关联网络。以汽车行业数据库中各项数据为节点,若两项数据在数据关联关系矩阵中的值为1,则绘制线段将代表两项数据的节点连接,否则不连接;重复上述步骤,得到数据关联网络。
本发明另一实施例中提出一种建立汽车行业数据关联网络的系统,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
本实施例提供的建立汽车行业数据关联网络的系统可执行任一实施例提供的建立汽车行业数据关联网络的方法,具备相应的技术效果,此次不再赘述。
应该理解的是,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种建立汽车行业数据关联网络的方法,其特征在于,包括:
统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n
通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
2.根据权利要求1所述的方法,其特征在于,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm};
将初始字段词汇集{C1,C2,…,Cm}中每个字段名称按照字符进行分割,得到初始字段词汇集的字段名称字符集
Figure FDA0003360577410000011
若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;
去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1};
重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n}。
3.根据权利要求2所述的方法,其特征在于,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
4.根据权利要求1所述的方法,其特征在于,得到汽车行业数据库字段名称词汇表LN×n的步骤包括:
提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,…,C'n}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名
Figure FDA0003360577410000021
包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则Li×c=1否则Li×c=0;
应用上述步骤中的方法遍历字段词汇集{C'1,C'2,…,C'n}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行Li,最终得到汽车行业数据库字段名称词汇表LN×n
5.根据权利要求1所述的方法,其特征在于,计算字段名称相似度矩阵E1N×N的步骤包括:
通过欧式距离和字段名称词汇表LN×n计算汽车行业数据库中Dk、Dj两项子数据库的字段名称相似度E1(k,j),即:
Figure FDA0003360577410000031
按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N
6.根据权利要求5所述的方法,其特征在于,计算应用场景相似度矩阵E2N×N的步骤包括:
对汽车行业数据库中各项数据应用场景描述语句进行分词,得到每项数据应用场景描述语言的词向量;
将所有数据的词向量进行融合去重,得到汽车行业数据库词向量总集;
依据所述词向量和所述词向量总集,按照词频-逆文本频率模型,获得词频向量集FN×M
通过欧式距离计算汽车行业数据库中Dk、Dj两项数据字段名称相似度E2(k,j),即:
Figure FDA0003360577410000032
重复上述步骤,得到汽车行业数据库中各项数据应用场景相似度矩阵E2N×N
7.根据权利要求6所述的方法,其特征在于,数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N2E2N×N,其中λ12=1且λ1≠0且λ2≠0。
8.根据权利要求1所述的方法,其特征在于,数据关联关系矩阵E'N×N的计算方法为:当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N
9.根据权利要求8所述的方法,其特征在于,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
10.一种建立汽车行业数据关联网络的系统,其特征在于,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
CN202111365891.7A 2021-11-18 2021-11-18 建立汽车行业数据关联网络的方法和系统 Pending CN114168687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111365891.7A CN114168687A (zh) 2021-11-18 2021-11-18 建立汽车行业数据关联网络的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111365891.7A CN114168687A (zh) 2021-11-18 2021-11-18 建立汽车行业数据关联网络的方法和系统

Publications (1)

Publication Number Publication Date
CN114168687A true CN114168687A (zh) 2022-03-11

Family

ID=80479507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111365891.7A Pending CN114168687A (zh) 2021-11-18 2021-11-18 建立汽车行业数据关联网络的方法和系统

Country Status (1)

Country Link
CN (1) CN114168687A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596713A (zh) * 2022-05-09 2022-06-07 天津大学 一种车辆的实时远程监测控制方法及系统
CN114896352A (zh) * 2022-04-06 2022-08-12 北京月新时代科技股份有限公司 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896352A (zh) * 2022-04-06 2022-08-12 北京月新时代科技股份有限公司 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备
CN114596713A (zh) * 2022-05-09 2022-06-07 天津大学 一种车辆的实时远程监测控制方法及系统

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN107145516B (zh) 一种文本聚类方法及系统
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN114168687A (zh) 建立汽车行业数据关联网络的方法和系统
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN111552788B (zh) 基于实体属性关系的数据库检索方法、系统与设备
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Pessiot et al. Improving document clustering in a learned concept space
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
WO2022116324A1 (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN115757776A (zh) 一种基于sq-lda主题模型的交通安全舆情分析方法
Makinist et al. Preparation of improved Turkish dataset for sentiment analysis in social media
CN114328885A (zh) 一种信息处理方法、装置及计算机可读存储介质
Le-Minh et al. Aspect-based sentiment analysis using mini-window locating attention for vietnamese e-commerce reviews
CN112632229A (zh) 文本聚类方法及装置
CN109710943A (zh) 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统
CN114840509B (zh) 一种基于智能过滤的电力数据关联查询的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination