CN114168687A - 建立汽车行业数据关联网络的方法和系统 - Google Patents
建立汽车行业数据关联网络的方法和系统 Download PDFInfo
- Publication number
- CN114168687A CN114168687A CN202111365891.7A CN202111365891A CN114168687A CN 114168687 A CN114168687 A CN 114168687A CN 202111365891 A CN202111365891 A CN 202111365891A CN 114168687 A CN114168687 A CN 114168687A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- automobile industry
- matrix
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 84
- 239000013598 vector Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种建立汽车行业数据关联网络的方法和系统。该方法包括:统一汽车行业数据库中每项数据各个字段名称,得到字段词汇集;将数据字段名称与字段词汇集进行对比,得到字段名称词汇表;通过字段名称词汇表计算字段名称相似度矩阵,根据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵,将名称相似度矩阵与应用场景相似度矩阵加权求和,得到数据关联度矩阵;根据数据关联度矩阵确定数据关联关系矩阵,由数据关联关系矩阵形成汽车行业数据关联网络。本发明实施例从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种建立汽车行业数据关联网络的方法和系统。
背景技术
目前,数据关联的建立主要是基于关联规则相关算法,最经典的是Apriori算法与FP-Growth算法。
1、Apriori算法的主要思路为:(1)找频繁项集,利用频繁项集的非空子集都是频繁的项集性质,先找频繁项集的侯选集,对侯选集中计数,大于支持度的就是频繁集;(2)由频繁项集生成关联规则。参考文献见Agrawal R.Srikant R.Fast algorithms for miningassociation rules.In Proceedings of the 20th International Conference on VeryLarge Databases[M].Santiago,Chile,1994:487~499。
2、FP-Growth算法的主要思路为:采取分而治之的策略,第一次扫描后,把数据库中的频繁集压缩进一颗频繁模式树(FP-Tree),同时依然保留其中的关联信息,再将FP-Tree分化成一些条件库,每个库和一个长度为1的频繁集相关,然后再对这些条件库分别进行挖掘。参考文献见HAN J W,KAMBER M,PEI J.数据挖掘:概念与技术[M].范明,孟小峰译.第3版.北京:机械工业出版社,2017:158-169。
随着汽车新四化的发展,汽车行业数据呈指数级增长,建立汽车行业数据关联网络可以有效解决数据孤岛问题,是汽车大数据价值挖掘的基础。目前还没有汽车行业数据关联网络的方法,汽车行业数据库存在数据字段数量大、名称不规范、数据范围广等问题,传统的数据关联针对同一范围内数据关联的建立,直接用于汽车行业数据关联网络的建立效果不佳。
发明内容
本发明实施例提出的建立汽车行业数据关联网络的方法和系统,统一汽车行业数据库中每项数据中各个字段名称,从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。
第一方面,本发明实施例提出一种建立汽车行业数据关联网络的方法,包括:
统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n;
通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N;
根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
优选的,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm};
若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;
去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1};
重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n}。
优选的,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
优选的,得到汽车行业数据库字段名称词汇表LN×n的步骤包括:
提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,…,C'n}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名C'c={C'1,C'2,…C'dc}包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则Li×c=1,否则Li×c=0;
应用上述步骤中的方法遍历字段词汇集{C'1,C'2,…,C'n}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行Li,最终得到汽车行业数据库字段名称词汇表LN×n。
优选的,计算字段名称相似度矩阵E1N×N的步骤包括:
通过欧式距离和字段名称词汇表LN×n计算汽车行业数据库中Dk、Dj两项子数据库的字段名称相似度E1(k,j),即:
按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N。
优选的,计算应用场景相似度矩阵E2N×N的步骤包括:
对汽车行业数据库中各项数据应用场景描述语句进行分词,得到每项数据应用场景描述语言的词向量;
将所有数据的词向量进行融合去重,得到汽车行业数据库词向量总集;
依据所述词向量和所述词向量总集,按照词频-逆文本频率模型,获得词频向量集FN×M;
通过欧式距离计算汽车行业数据库中Dk、Dj两项数据字段名称相似度E2(k,j),即:
重复上述步骤,得到汽车行业数据库中各项数据应用场景相似度矩阵E2N×N。
优选的,数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N+λ2E2N×N,其中λ1+λ2=1且λ1≠0且λ2≠0。
优选的,数据关联关系矩阵E'N×N的计算方法为:当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N。
优选的,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
第二方面,本发明实施例提出一种建立汽车行业数据关联网络的系统,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n;
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N;
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
本发明实施例与现有技术相比,具体有益效果如下:
1、统一汽车行业数据库中每项数据各个字段名称,为基于主数据的管理提供技术保障。
2、建立汽车数据关联网络,实现基于数据内容及数据应用场景的关联性分析,通过关联性探索融合应用的新场景,为业务发展提供更多数据选择,提高数据利用率,加速数据价值释放。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的建立汽车行业关联网络的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
下面将结合参考附图来详细说明本发明实施例。
结合图1,本发明实施例提出一种建立汽车行业关联网络的方法,具体步骤包括:
步骤S100,统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集{C'1,C'2,…,C'n}中字段名称进行对比,统计得到字段名称词汇表LN×n。
具体的,统一汽车行业数据库中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
步骤S111,提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm}。
其中,D1、D2……DN为汽车行业数据库中的数据,N为汽车行业数据库中数据总项数;C1、C2……Cm为汽车行业数据库中数据的字段名称,m为汽车行业数据库中所有数据拥有字段名称的总个数。
步骤S113,若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理,即:
其中,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
步骤S114,去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1}。
步骤S115,重复步骤S113与步骤114,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n},其中n为最终汽车行业数据库中所有数据拥有字段名称的总个数。
具体的,提取汽车行业数据库中各项数据的字段名称,与字段词汇集{C'1,C'2,…,C'n}中字段名称进行对比,统计得到汽车行业数据库字段名称词汇表LN×n的步骤包括:
步骤S121,提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,…,C'n}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则Li×c=1,否则Li×c=0。
步骤S122,应用步骤S121中的方法遍历字段词汇集{C'1,C'2,…,C'n}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行Li。
步骤S123,重复步骤S121与步骤S122,得到汽车行业数据库字段名称词汇表LN×n。其中,N为汽车行业数据库中数据总项数,n为最终汽车行业数据库中所有数据拥有字段名称的总个数。
步骤S200,通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N。
具体的,通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N的步骤包括:
步骤S211,通过欧式距离和字段名称词汇表LN×n计算汽车行业数据库中Dk、Dj两项子数据库的字段名称相似度E1(k,j),即:
步骤S212,按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N。其中,N为汽车行业数据库中数据总项数。
具体的,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N的步骤包括:
步骤S221,将汽车行业数据库中各项数据应用场景描述语句信息S={S1,S2,…SN}运用jieba库(Pathon语言的中文分词库)进行分词,去除标点以及停用词,得到每项数据应用场景描述语言的词向量S1={s1,s2,…}。可以理解的是,分词库不限于jieba库。
步骤S222,将汽车行业数据库中所有数据应用场景描述语句按照步骤S221进行处理,并将所有数据的词向量进行融合去重,得到汽车行业数据库词向量总集V={v1,v2,…vM},其中M为汽车行业数据库词向量总集中词语的总个数。
步骤S223,依据所有数据应用场景描述语言的词向量以及汽车行业数据库词向量总集,并按照TF-IDF(词频-逆文本频率模型)的方法,获得词频向量集FN×M。
步骤S224,通过欧式距离计算汽车行业数据库中Dk、Dj两项数据字段名称相似度E2(k,j),即:
重复上述步骤,得到汽车行业数据库中各项数据应用场景相似度矩阵E2N×N。
具体的,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N+λ2E2N×N,其中λ1+λ2=1且λ1≠0且λ2≠0。
步骤S300,根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
具体的,当汽车行业数据库中两项数据之间的关联度大于阈值th2时,两项数据存在关联,即当数据关联关系矩阵E'N×N中某项数据值大于阈值th2时,该项数据代表的两项数据存在关联。汽车行业数据库各数据的数据关联关系矩阵为E'N×N,当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N。其中,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
利用Gephi工具绘制汽车行业数据关联网络。以汽车行业数据库中各项数据为节点,若两项数据在数据关联关系矩阵中的值为1,则绘制线段将代表两项数据的节点连接,否则不连接;重复上述步骤,得到数据关联网络。
本发明另一实施例中提出一种建立汽车行业数据关联网络的系统,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n;
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N;
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
本实施例提供的建立汽车行业数据关联网络的系统可执行任一实施例提供的建立汽车行业数据关联网络的方法,具备相应的技术效果,此次不再赘述。
应该理解的是,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种建立汽车行业数据关联网络的方法,其特征在于,包括:
统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n;
通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N;
根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
2.根据权利要求1所述的方法,其特征在于,得到字段词汇集{C'1,C'2,…,C'n}的步骤包括:
提取汽车行业数据库D={D1,D2,…DN}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,…,Cm};
若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;
去掉重复的字段名称,得到合并字段字汇集{C1,C2,…,Cm-1};
重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,…,C'n}。
3.根据权利要求2所述的方法,其特征在于,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
7.根据权利要求6所述的方法,其特征在于,数据关联度矩阵EN×N的计算方法为:
EN×N=λ1E1N×N+λ2E2N×N,其中λ1+λ2=1且λ1≠0且λ2≠0。
8.根据权利要求1所述的方法,其特征在于,数据关联关系矩阵E'N×N的计算方法为:当E(e,f)>th2时,数据项De与数据项Df存在关联,E'(e,f)=1;否则E'(e,f)=0;重复上述步骤,得到数据关联关系矩阵E'N×N。
9.根据权利要求8所述的方法,其特征在于,阈值th2用来判定两项数据是否存在关联性,阈值th2取值范围为0.6-0.7。
10.一种建立汽车行业数据关联网络的系统,其特征在于,包括:
数据字段标准化模块,所述数据字段标准化模块统一汽车行业数据库D={D1,D2,…DN}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,…,C'n};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表LN×n;
数据关联度矩阵求解模块,所述数据关联度矩阵求解模块通过所述字段名称词汇表LN×n计算汽车行业数据库中各项数据字段名称相似度矩阵E1N×N,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2N×N,将名称相似度矩阵E1N×N与应用场景相似度矩阵E2N×N加权求和,得到汽车行业数据库各数据的数据关联度矩阵EN×N;
数据关联网络建立模块,所述数据关联网络建立模块根据所述数据关联度矩阵EN×N确定汽车行业数据库各数据的数据关联关系矩阵E'N×N,由数据关联关系矩阵E'N×N形成汽车行业数据关联网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111365891.7A CN114168687A (zh) | 2021-11-18 | 2021-11-18 | 建立汽车行业数据关联网络的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111365891.7A CN114168687A (zh) | 2021-11-18 | 2021-11-18 | 建立汽车行业数据关联网络的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168687A true CN114168687A (zh) | 2022-03-11 |
Family
ID=80479507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111365891.7A Pending CN114168687A (zh) | 2021-11-18 | 2021-11-18 | 建立汽车行业数据关联网络的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168687A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596713A (zh) * | 2022-05-09 | 2022-06-07 | 天津大学 | 一种车辆的实时远程监测控制方法及系统 |
CN114896352A (zh) * | 2022-04-06 | 2022-08-12 | 北京月新时代科技股份有限公司 | 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
-
2021
- 2021-11-18 CN CN202111365891.7A patent/CN114168687A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896352A (zh) * | 2022-04-06 | 2022-08-12 | 北京月新时代科技股份有限公司 | 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
CN114596713A (zh) * | 2022-05-09 | 2022-06-07 | 天津大学 | 一种车辆的实时远程监测控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN114168687A (zh) | 建立汽车行业数据关联网络的方法和系统 | |
TW201839628A (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
CN111552788B (zh) | 基于实体属性关系的数据库检索方法、系统与设备 | |
CN106339495A (zh) | 一种基于层次增量聚类的话题检测方法及系统 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Pessiot et al. | Improving document clustering in a learned concept space | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
WO2022116324A1 (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN111339248A (zh) | 数据属性填充方法、装置、设备及计算机可读存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN115757776A (zh) | 一种基于sq-lda主题模型的交通安全舆情分析方法 | |
Makinist et al. | Preparation of improved Turkish dataset for sentiment analysis in social media | |
CN114328885A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
Le-Minh et al. | Aspect-based sentiment analysis using mini-window locating attention for vietnamese e-commerce reviews | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN109710943A (zh) | 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统 | |
CN114840509B (zh) | 一种基于智能过滤的电力数据关联查询的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |