CN110362601B - 元数据标准的映射方法、装置、设备及存储介质 - Google Patents

元数据标准的映射方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110362601B
CN110362601B CN201910533687.8A CN201910533687A CN110362601B CN 110362601 B CN110362601 B CN 110362601B CN 201910533687 A CN201910533687 A CN 201910533687A CN 110362601 B CN110362601 B CN 110362601B
Authority
CN
China
Prior art keywords
data
standard
target
target data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910533687.8A
Other languages
English (en)
Other versions
CN110362601A (zh
Inventor
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN201910533687.8A priority Critical patent/CN110362601B/zh
Publication of CN110362601A publication Critical patent/CN110362601A/zh
Application granted granted Critical
Publication of CN110362601B publication Critical patent/CN110362601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种元数据标准的映射方法、装置、设备及存储介质,即获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据;若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。本发明可以根据目标数据对应的同义词在预设标准库中查找对应的同义标准数据,实现了标准元数据的增量更新,无需人工进行对应标准数据的查找,提高了数据查找效率,提升了数据查找结果的准确率,提升了用户体验。

Description

元数据标准的映射方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种元数据标准的映射方法、装置、设备及计算机可读存储介质。
背景技术
随着信息系统建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数据资产形成的必要条件。数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。而数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。目前市面上的数据治理系统中,一般需要人工在标准体系中搜索出元数据对应的标准,并将该元数据与对应的标准建立映射关系。因此,现有元数据与标准的映射方法不仅效率低下而且准确率低下。
因此,如何解决现有元数据与标准的映射方法不仅效率低下而且准确率低下的问题,是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种元数据标准的映射方法、装置、设备及计算机可读存储介质,旨在解决现有元数据与标准的映射方法不仅效率低下而且准确率低下的技术问题。
为实现上述目的,本发明提供一种元数据标准的映射方法,其特征在于,所述元数据标准的映射方法包括以下步骤:
在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据;
其中,所述计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据的步骤包括:
基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度;
根据所述意义相似度和词语相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的意义相似度和词语相似度超过预设阈值;
其中,所述基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度的步骤具体包括:
计算所述同义标准数据与目标数据的意义相似度,其中,所述意义相似度的计算依据以下公式:
Figure GDA0002761948640000021
其中,{Ws}为认知语言学的英语词典WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词,SWi为目标数据,SWj为同义标准数据,K为属于同义词特征的权重、类属特征的权重以及意义解释的权重的预设常数,i为目标数据在多个目标数据中的顺序,j为同义标准数据在多个同义标准数据中的顺序,No(SW)为SW意义的顺序,IDF(Wi)为从WordNet中训练得到的构建WordNet时出现某个Wi的文档的倒数,Ks为同义词特征的权重,Kc为类属特征的权重,Ke为意义解释的权重,QU为Wi出现的指标集,QV为Wj出现的指标集;
计算所述同义标准数据与所述目标数据的词语相似度。
可选地,所述在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据的步骤包括:
在检测到映射指令时,获取所述映射指令中的目标数据;
基于认知语言学的英语词典WordNet,在所述WordNet中获取所述目标数据对应的同义词词集Syncet,属类词Class word和意义解释Sense explanation,并在所述同义词词集、属类词词集以及意义解释词集进行数据特征提取,以确定所述目标数据对应的候选同义词,其中,所述候选同义词的提取公式如下:
feature(SW)={{Ws},{Wc},{We}}
其中,{Ws}为WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词;
将所述候选同义词与所述预设标准库中的标准元数据进行匹配,确定所述目标数据对应的同义标准数据。
可选地,所述词语相似度的计算依据以下公式:
Figure GDA0002761948640000031
其中,|SW1|为W1的意义sense的个数,|SW1|为W2的意义sense的个数,SW1i为目标数据中的各个词语、SW2j为同义标准数据中的各个词语。
可选地,所述在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据的步骤具体包括:
在检测到不符合预设标准的元数据时,根据预设规则判断所述标准库中是否存在所述目标数据对应的同义标准数据;
若所述标准库中存在所述同义标准数据,则获取所述目标数据对应的同义标准数据。
可选地,所述在检测到不符合预设标准的元数据时,根据预设规则判断所述标准库中是否存在所述目标数据对应的同义标准数据的步骤之后,还包括:
若不存在所述目标标准数据,则获取所述目标数据在预设时间段中的使用频率,并在所述使用频率超过预设阈值时,则根据自然语言处理NLP对所述元数据进行分词处理以及数据分析,并根据所述NLP判断分词后的各个单位数据是否符合自然语言的命名规则;
若所述目标数据符合所述自然语言的命名规则,则根据所述目标数据生成对应的标准数据更新推荐信息,并在接收到用户根据所述更新推荐信息反馈的确认指令时,将所述目标数据添加至所述预设标准库。
可选地,所述计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值的步骤之后,还包括:
若不存在所述目标标准数据,则将相似度最大的同义标准数据,并根据所述相似度最大的同义标准数据生成对应的映射推荐信息,以便提醒用户是否将所述相似度最大的同义标准数据与所述目标数据建立映射关系。
此外,为实现上述目的,本发明还提供一种元数据标准的映射装置,所述元数据标准的映射装置包括:
数据查找模块,用于在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
数据判断模块,用于计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
数据映射模块,用于若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。
此外,为实现上述目的,本发明还提供一种元数据标准的映射设备,所述元数据标准的映射设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的元数据标准的映射程序,其中所述元数据标准的映射程序被所述处理器执行时,实现如上述的元数据标准的映射方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有元数据标准的映射程序,其中所述元数据标准的映射程序被处理器执行时,实现如上述的元数据标准的映射方法的步骤。
本发明提供一种元数据标准的映射方法,即在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。通过上述方式,本发明可以根据目标数据对应的同义词在预设标准库中查找对应的同义标准数据,无需人工进行对应标准数据的查找,提高了数据查找效率,提升了数据查找结果的准确率,提升了用户体验,解决了现有事先制定的标准元数据无法满足用户需求的技术问题。
附图说明
图1为本发明实施例方案中涉及的元数据标准的映射设备的硬件结构示意图;
图2为本发明元数据标准的映射方法第一实施例的流程示意图;
图3为本发明元数据标准的映射方法第二实施例的流程示意图;
图4为本发明元数据标准的映射方法第三实施例的流程示意图;
图5为本发明元数据标准的映射装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的元数据标准的映射方法主要应用于元数据标准的映射设备,该元数据标准的映射设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的元数据标准的映射设备的硬件结构示意图。本发明实施例中,元数据标准的映射设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对元数据标准的映射设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及元数据标准的映射程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的元数据标准的映射程序,并执行本发明实施例提供的元数据标准的映射方法。
本发明实施例提供了一种元数据标准的映射方法。
参照图2,图2为本发明元数据标准的映射方法第一实施例的流程示意图。
本实施例中,所述元数据标准的映射方法包括以下步骤:
步骤S10,在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
本实施例中,现有对于已经投入生产使用的系统,有些不符合标准的元数据是不能进行更改的,因此,需要将这些不符合标准的元数据与标准数据之间建立一个映射关系,以便在下次稽核系统数据时,可识别出上述元数据。本发明针对现有需要人工在标准体系中进行对应标准数据查找的技术问题,提供一种基于同义词进行对应标准数据查找的方法,通过在标准库中查找待映射的目标数据对应的同义数据,从而快速高效的查找到所述目标数据对应的同义标准数据。其中,预设规则可以是在目标数据为英文数据时,基于认知语言学的英语词典WordNet,获取所述目标数据对应的同义数据集合,将所述同义数据集合与标准库进行匹配,从而获取所述目标数据对应的统同义标准数据。具体实施例中,在目标数据为中文数据时,基于中文近义词或同义词词典,获取所述目标数据对应的同义数据集合,并获取所述目标数据对应的同义标准数据。具体实施例中,同义标准数据的获取步骤为:在检测到映射指令时,获取所述映射指令中的目标数据;基于认知语言学的英语词典WordNet,在所述WordNet中获取所述目标数据对应的同义词词集Syncet,属类词Classword和意义解释Sense explanation,并在所述同义词词集、属类词词集以及意义解释词集进行数据特征提取,以确定所述目标数据对应的候选同义词,其中,所述候选同义词的提取公式如下:
feature(SW)={{Ws},{Wc},{We}}
其中,{Ws}为WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词;将所述候选同义词与所述预设标准库中的标准元数据进行匹配,确定所述目标数据对应的同义标准数据。其中,本实施例主要利用WordNet提供的接口函数,然后从WordNet的同义词词集、属类词和意义解释这三个集合中抽出候选同义词,然后对所述候选同义词进行特征提取,将所述候选同义词依据预设标准库中的标准元数据确定所述目标数据对应的同义标准数据。
步骤S20,计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
本实施例中,所述相似度包括意义相似度和词语相似度,两个意义(Sense)之间的相似度可以通过计算其在三个不同的意义特征空间中的距离来得到。距离越小,相似度越大。根据意义相似度即可计算出WordNet中两个词语之间的相似度。在计算出所述同义标准数据与所述目标数据的相似度时,判断所述同义标准数据中是否存在与所述目标数据的相似度超过预设阈值的目标标准数据。
步骤S30,若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。
本实施例中,在确定所述同义标准数据中存在所述目标标准数据时,将所述目标标准数据与所述目标数据进行对应的映射关系,从而便于在后续稽核系统数据时,可识别出所述目标数据即为对应映射的标准数据。例如:wordNet找到trade的synset:trade、transaction、business、deal,并按相似度排序,推荐出来,其中transaction、business是该系统中的标准用语,高亮显示,按相似度可将transaction选中作为trade的映射标准。免去了人工从成千上万个标准中找出同义词的过程。
本实施例提供一种元数据标准的映射方法,即在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。通过上述方式,本发明可以根据目标数据对应的同义词在预设标准库中查找对应的同义标准数据,无需人工进行对应标准数据的查找,提高了数据查找效率,提升了数据查找结果的准确率,提升了用户体验,解决了现有事先制定的标准元数据无法满足用户需求的技术问题。
参照图3,图3为本发明元数据标准的映射方法第二实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S20包括:
步骤S21,基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度;
本实施例中,以WordNet的词汇语义分类作为基础,然后抽取出对应的候选同义词,并根据预设标准库中的标准库确定所述目标数据对应的同义标准数据。然后采用基于向量空间的方法计算出所述目标数据与各个同义标准数据的意义相似度和词语相似度。具体实施例中,计算所述同义标准数据与目标数据的意义相似度,其中,所述意义相似度的计算依据以下公式:
Figure GDA0002761948640000081
其中,{Ws}为认知语言学的英语词典WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词,SWi为目标数据,SWj为同义标准数据,K为属于同义词特征的权重、类属特征的权重以及意义解释的权重的预设常数,i为目标数据在多个目标数据中的顺序,j为同义标准数据在多个同义标准数据中的顺序,No(SW)为SW意义的顺序,IDF(Wi)为从WordNet中训练得到的构建WordNet时出现某个Wi的文档的倒数,Ks为同义词特征的权重,Kc为类属特征的权重,Ke为意义解释的权重,QU为Wi出现的指标集,QV为Wj出现的指标集;
计算所述同义标准数据与所述目标数据的词语相似度,其中,所述词语相似度的计算依据以下公式:
Figure GDA0002761948640000091
其中,|SW1|为W1的意义sense的个数,|SW1|为W2的意义sense的个数,SW1i和SW2i为目标数据中的各个词语、SW1j和SW2j为同义标准数据中的各个词语。
步骤S22,根据所述意义相似度和词语相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的意义相似度和词语相似度超过预设阈值。
本实施例中,可根据所述意义相似度和词语相似度设置不同的相似度预设阈值,也可以设置相同的相似度预设阈值。将与所述目标数据的相似度超过预设阈值的同义标准数据作为目标标准数据,并根据所述相似度以及预设阈值,判断所述同义标准数据中是否存在目标标准数据。
参照图4,图4为本发明元数据标准的映射方法第三实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S20之后,还包括:
步骤S40,若不存在所述目标标准数据,则获取所述目标数据在预设时间段中的使用频率,并在所述使用频率超过预设阈值时,则根据自然语言处理NLP对所述元数据进行分词处理以及数据分析,并根据所述NLP判断分词后的各个单位数据是否符合自然语言的命名规则;
本实施例中,若不存在所述目标标准数据,则所述目标数据不是预设标准库中标准元数据对应的同义词。进一步获取所述目标数据在预设时间段中的使用频率,即统计所述目标数据在指定时间段中的出现次数,判断所述目标数据的使用频率是否超过了预设阈值,其中,所述预设时间段可以是当前时间起的一周内、一个月或者三个月内等。所述预设阈值可以根据实际情况进行设定,且使用频率超过所述预设阈值的目标数据即为用户高频使用的元数据。具体实施例中,还可以通过统计所述目标数据在预设时间段中的出现次数。
在判定所述使用频率超过设定的预设阈值时,对所述目标数据进行NLP(NaturalLanguage Processing,自然语言处理)分析处理。在所述目标数据为词组时,将所述目标数据进行分词处理,并对分词后的各个单位数据分别进行判断,即判断目标数据分词后的各个单位数据是否符合自然语言的命名规则。其中,所述命名规则可以是判断各个单位数据是否为中文词语、英文单词或者其他有效的语言词语等。具体实施例中,可以根据对应的语言词典,判断各个单位数据是否为有效的语言词语。
步骤S50,若所述目标数据符合所述自然语言的命名规则,则根据所述目标数据生成对应的标准数据更新推荐信息,并在接收到用户根据所述更新推荐信息反馈的确认指令时,将所述目标数据添加至所述预设标准库。
本实施例中,在判定所述目标数据符合对应的命名规则时,即可将所述目标数据推荐至管理员,以便管理员判断是否将所述目标数据添加至预设数据库,存储为标准元数据。具体推荐步骤为:根据所述目标数据生成对应的推荐信息,如:是否将“IC(家电维修业中对集成电路称作IC)存储为标准元数据”。并同时生成确认或者取消指令,以便管理员根据审核结果触发对应指令。若接收到确认指令时,即管理员审核通过,将所述目标数据存储至预设标准库,即将所述目标数据存储为标准元数据,以便后续用户使用。
进一步地,所述步骤S20之后,还包括:
若不存在所述目标标准数据,则将相似度最大的同义标准数据,并根据所述相似度最大的同义标准数据生成对应的映射推荐信息,以便提醒用户是否将所述相似度最大的同义标准数据与所述目标数据建立映射关系。
本实施例中,若不存在相似度大于预设阈值的目标标准数据,则获取所述同义标准数据中与所述目标数据的相似度最大的同义标准数据,由此将所述目标数据推荐作为与所述目标数据具有最大关联度的同义标准数据对应的映射数据。即根据所述目标数据以及所述相似度最大的同义标准数据生成映射推荐信息,如“所述目标数据与某某的标准数据的相似度较大,是否将所述目标数据与某某标准数据建立映射关系”等。从而提醒预设标准库的标准元数据的管理员,是否将所述相似度最大的同义标准数据与所述目标数据建立映射关系,从而便于识别所述目标数据。
此外,本发明实施例还提供一种元数据标准的映射装置。
参照图5,图5为本发明元数据标准的映射装置第一实施例的功能模块示意图。
本实施例中,所述元数据标准的映射装置包括:
数据查找模块10,用于在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
数据判断模块20,用于计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
数据映射模块30,用于若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据。
进一步地,所述数据查找模块10还用于:
在检测到映射指令时,获取所述映射指令中的目标数据;
基于认知语言学的英语词典WordNet,在所述WordNet中获取所述目标数据对应的同义词词集Syncet,属类词Class word和意义解释Sense explanation,并在所述同义词词集、属类词词集以及意义解释词集进行数据特征提取,以确定所述目标数据对应的候选同义词,其中,所述候选同义词的提取公式如下:
feature(SW)={{Ws},{Wc},{We}}
其中,{Ws}为WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词;
将所述候选同义词与所述预设标准库中的标准元数据进行匹配,确定所述目标数据对应的同义标准数据。
进一步地,所述数据判断模块20具体包括:
相似度计算单元,用于基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度;
目标数据判断单元,用于根据所述意义相似度和词语相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的意义相似度和词语相似度超过预设阈值。
进一步地,所述相似度计算单元还用于:
计算所述同义标准数据与目标数据的意义相似度,其中,所述意义相似度的计算依据以下公式:
Figure GDA0002761948640000121
其中,No(SW)为SW意义的顺序,IDF(Wi)为从WordNet中训练得到的构建WordNet时出现某个Wi的文档的倒数,Ks为同义词特征的权重,Kc为类属特征的权重,Ke为意义解释的权重,QU为Wi出现的指标集,QV为Wj出现的指标集;
计算所述同义标准数据与所述目标数据的词语相似度,其中,所述词语相似度的计算依据以下公式:
Figure GDA0002761948640000122
其中,|SW1|为W1的意义sense的个数,|SW1|为W2的意义sense的个数。
进一步地,所述数据查找模块10还包括:
数据命名判断模块,用于若不存在所述目标标准数据,则获取所述目标数据在预设时间段中的使用频率,并在所述使用频率超过预设阈值时,则根据自然语言处理NLP对所述元数据进行分词处理以及数据分析,并根据所述NLP判断分词后的各个单位数据是否符合自然语言的命名规则;
标准数据添加模块,用于若所述目标数据符合所述自然语言的命名规则,则根据所述目标数据生成对应的标准数据更新推荐信息,并在接收到用户根据所述更新推荐信息反馈的确认指令时,将所述目标数据添加至所述预设标准库。
进一步地,所述元数据标准的映射装置还包括:
映射推荐模块,用于若不存在所述目标标准数据,则将相似度最大的同义标准数据,并根据所述相似度最大的同义标准数据生成对应的映射推荐信息,以便提醒用户是否将所述相似度最大的同义标准数据与所述目标数据建立映射关系。
其中,上述元数据标准的映射装置中各个模块与上述元数据标准的映射方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有元数据标准的映射程序,其中所述元数据标准的映射程序被处理器执行时,实现如上述的元数据标准的映射方法的步骤。
其中,元数据标准的映射程序被执行时所实现的方法可参照本发明元数据标准的映射方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种元数据标准的映射方法,其特征在于,所述元数据标准的映射方法包括以下步骤:
在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据;
其中,所述计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据的步骤包括:
基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度;
根据所述意义相似度和词语相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的意义相似度和词语相似度超过预设阈值;
其中,所述基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度的步骤具体包括:
计算所述同义标准数据与目标数据的意义相似度,其中,所述意义相似度的计算依据以下公式:
Figure FDA0002761948630000011
其中,{Ws}为认知语言学的英语词典WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词,SWi为目标数据,SWj为同义标准数据,K为属于同义词特征的权重、类属特征的权重以及意义解释的权重的预设常数,i为目标数据在多个目标数据中的顺序,j为同义标准数据在多个同义标准数据中的顺序,No(SW)为SW意义的顺序,IDF(Wi)为从WordNet中训练得到的构建WordNet时出现某个Wi的文档的倒数,Ks为同义词特征的权重,Kc为类属特征的权重,Ke为意义解释的权重,QU为Wi出现的指标集,QV为Wj出现的指标集;
计算所述同义标准数据与所述目标数据的词语相似度。
2.如权利要求1所述的元数据标准的映射方法,其特征在于,所述在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据的步骤包括:
在检测到映射指令时,获取所述映射指令中的目标数据;
基于认知语言学的英语词典WordNet,在所述WordNet中获取所述目标数据对应的同义词词集Syncet,属类词Class word和意义解释Sense explanation,并在所述同义词词集、属类词词集以及意义解释词集进行数据特征提取,以确定所述目标数据对应的候选同义词,其中,所述候选同义词的提取公式如下:
feature(SW)={{Ws},{Wc},{We}}
其中,{Ws}为WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词;
将所述候选同义词与所述预设标准库中的标准元数据进行匹配,确定所述目标数据对应的同义标准数据。
3.如权利要求1所述的元数据标准的映射方法,其特征在于,所述所述词语相似度的计算依据以下公式:
Figure FDA0002761948630000021
其中,|SW1|为W1的意义sense的个数,|SW2 |为W2的意义sense的个数,SW1i和SW2i为目标数据中的各个词语、SW1j和SW2j为同义标准数据中的各个词语。
4.如权利要求1所述的元数据标准的映射方法,其特征在于,所述在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据的步骤具体包括:
在检测到不符合预设标准的元数据时,根据预设规则判断所述标准库中是否存在所述目标数据对应的同义标准数据;
若所述标准库中存在所述同义标准数据,则获取所述目标数据对应的同义标准数据。
5.如权利要求4所述的元数据标准的映射方法,其特征在于,所述在检测到不符合预设标准的元数据时,根据预设规则判断所述标准库中是否存在所述目标数据对应的同义标准数据的步骤之后,还包括:
若不存在所述目标标准数据,则获取所述目标数据在预设时间段中的使用频率,并在所述使用频率超过预设阈值时,则根据自然语言处理NLP对所述元数据进行分词处理以及数据分析,并根据所述NLP判断分词后的各个单位数据是否符合自然语言的命名规则;
若所述目标数据符合所述自然语言的命名规则,则根据所述目标数据生成对应的标准数据更新推荐信息,并在接收到用户根据所述更新推荐信息反馈的确认指令时,将所述目标数据添加至所述预设标准库。
6.如权利要求1至5任意一项所述的元数据标准的映射方法,其特征在于,所述计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值的步骤之后,还包括:
若不存在所述目标标准数据,则将相似度最大的同义标准数据,并根据所述相似度最大的同义标准数据生成对应的映射推荐信息,以便提醒用户是否将所述相似度最大的同义标准数据与所述目标数据建立映射关系。
7.一种元数据标准的映射装置,其特征在于,所述元数据标准的映射装置包括:
数据查找模块,用于在检测到映射指令时,获取所述映射指令中的目标数据,根据预设规则在预设标准库中获取所述目标数据对应的同义标准数据;
数据判断模块,用于计算所述同义标准数据与所述目标数据的相似度,并根据所述相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的相似度超过预设阈值;
数据映射模块,用于若存在所述目标标准数据,则将所述目标数据与所述目标标准数据建立映射关系,以便将所述目标数据映射为可识别的标准数据;
其中,所述数据判断模块,包括:
相似度计算单元,用于基于向量空间方法,计算出所述同义标准数据与目标数据的意义相似度和词语相似度;
目标数据判断单元,用于根据所述意义相似度和词语相似度判断所述同义标准数据中是否存在所述目标数据对应的目标标准数据,其中,所述目标标准数据与所述目标数据的意义相似度和词语相似度超过预设阈值;
所述相似度计算单元,还用于:
计算所述同义标准数据与目标数据的意义相似度,其中,所述意义相似度的计算依据以下公式:
Figure FDA0002761948630000041
其中,{Ws}为认知语言学的英语词典WordNet中Sense W所有的同义词;{Wc}为Sense W所有的相关的属类;{We}为Sense W的解释中所有的实词,SWi为目标数据,SWj为同义标准数据,K为属于同义词特征的权重、类属特征的权重以及意义解释的权重的预设常数,i为目标数据在多个目标数据中的顺序,j为同义标准数据在多个同义标准数据中的顺序,No(SW)为SW意义的顺序,IDF(Wi)为从WordNet中训练得到的构建WordNet时出现某个Wi的文档的倒数,Ks为同义词特征的权重,Kc为类属特征的权重,Ke为意义解释的权重,QU为Wi出现的指标集,QV为Wj出现的指标集;
计算所述同义标准数据与所述目标数据的词语相似度。
8.一种元数据标准的映射设备,其特征在于,所述元数据标准的映射设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的元数据标准的映射程序,其中所述元数据标准的映射程序被所述处理器执行时,实现如权利要求1至6中任一项所述的元数据标准的映射方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有元数据标准的映射程序,其中所述元数据标准的映射程序被处理器执行时,实现如权利要求1至6中任一项所述的元数据标准的映射方法的步骤。
CN201910533687.8A 2019-06-19 2019-06-19 元数据标准的映射方法、装置、设备及存储介质 Active CN110362601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533687.8A CN110362601B (zh) 2019-06-19 2019-06-19 元数据标准的映射方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533687.8A CN110362601B (zh) 2019-06-19 2019-06-19 元数据标准的映射方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110362601A CN110362601A (zh) 2019-10-22
CN110362601B true CN110362601B (zh) 2020-12-18

Family

ID=68216679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533687.8A Active CN110362601B (zh) 2019-06-19 2019-06-19 元数据标准的映射方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110362601B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795524B (zh) * 2019-10-31 2022-07-05 望海康信(北京)科技股份公司 主数据映射处理方法、装置、计算机设备及存储介质
CN112052645A (zh) * 2020-09-15 2020-12-08 平安医疗健康管理股份有限公司 数据标准化方法、装置、介质及设备
CN112668314A (zh) * 2020-12-30 2021-04-16 深圳市华傲数据技术有限公司 数据标准符合性检测方法、装置、系统及存储介质
CN113642327A (zh) * 2021-10-14 2021-11-12 中国光大银行股份有限公司 一种标准知识库的构建方法及装置
CN117454892B (zh) * 2023-12-20 2024-04-02 深圳市智慧城市科技发展集团有限公司 元数据管理方法、装置、终端设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223433B2 (en) * 2017-01-25 2019-03-05 International Business Machines Corporation Data mapper
CN109740143B (zh) * 2018-11-28 2022-08-23 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN109635098B (zh) * 2018-12-20 2020-08-21 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN109815491B (zh) * 2019-01-08 2023-08-08 平安科技(深圳)有限公司 答题评分方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110362601A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110362601B (zh) 元数据标准的映射方法、装置、设备及存储介质
US11194965B2 (en) Keyword extraction method and apparatus, storage medium, and electronic apparatus
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
US20140052688A1 (en) System and Method for Matching Data Using Probabilistic Modeling Techniques
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
US20150286706A1 (en) Forensic system, forensic method, and forensic program
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN110263121B (zh) 表格数据处理方法、装置、电子装置及计算机可读存储介质
CN111723192A (zh) 代码推荐方法和装置
WO2020164204A1 (zh) 文本模板识别方法、装置及计算机可读存储介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN115964384A (zh) 一种数据查询方法、装置、电子设备及计算机可读介质
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN114329210A (zh) 信息推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant