CN112052645A - 数据标准化方法、装置、介质及设备 - Google Patents
数据标准化方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN112052645A CN112052645A CN202010969757.7A CN202010969757A CN112052645A CN 112052645 A CN112052645 A CN 112052645A CN 202010969757 A CN202010969757 A CN 202010969757A CN 112052645 A CN112052645 A CN 112052645A
- Authority
- CN
- China
- Prior art keywords
- data
- result
- occurrence
- mapping
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 225
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000010606 normalization Methods 0.000 claims description 35
- 238000012552 review Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 54
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种数据标准化方法、装置、介质及设备,其中方法包括:获取待标准化数据;将所述待标准化数据输入映射关系库进行映射,得到映射结果;当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;根据所述共现结果,确定所述目标标准化结果。从而提高了标准化效率,降低了成本,对历史数据进行了充分利用。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种数据标准化方法、装置、介质及设备。
背景技术
在数据治理中,数据的标准化是其中最重要的环节之一,数据标准化的质量决定数据的价值和应用程度。现有技术中采用人工方法进行数据标准化,效率低、成本高;而且在数据标准化时,对历史标准化数据、各业务历史映射数据没有进行充分利用。
发明内容
本申请的主要目的为提供一种数据标准化方法、装置、介质及设备,旨在解决现有技术中数据标准化效率低、成本高,对历史标准化数据、各业务历史映射数据没有进行充分利用的技术问题。
为了实现上述发明目的,本申请提出一种数据标准化方法,所述方法包括:
获取待标准化数据;
将所述待标准化数据输入映射关系库进行映射,得到映射结果;
当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
根据所述共现结果,确定所述目标标准化结果。
进一步的,所述将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果的步骤,包括:
将所述待标准化数据输入目标NLP模型;
通过所述目标NLP模型根据所述待标准化数据进行映射匹配,得到匹配关系数据;
通过所述目标NLP模型对所述匹配关系数据进行相似度评分,得到相似度评分结果;
当所述相似度评分结果小于预设评分阈值时确定所述匹配结果为失败,否则确定所述匹配结果为成功。
进一步的,所述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤,包括:
将所述待标准化数据在所述共现关系库中进行查找,得到共现数据;
根据所述共现数据,确定所述共现关系数据和所述共现次数。
进一步的,所述根据所述共现结果,确定所述目标标准化结果的步骤,包括:
当所述共现次数大于第一次数阈值时,根据所述共现次数对应的所述共现关系数据,确定所述目标标准化结果;
当所述共现次数小于或等于第一次数阈值,并且,所述共现次数大于第二次数阈值时,将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果;
当所述共现次数小于或等于第二次数阈值时,将所述待标准化数据发送给映射端,获取所述映射端发送的人工映射数据,根据所述人工映射数据,确定所述目标标准化结果。
进一步的,所述将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果的步骤,包括:
将所述共现次数对应的所述共现关系数据,作为第一待审核数据;
将所述第一待审核数据发送给复核端;
获取所述复核端发送的所述第一人工复核结果;
当所述第一人工复核结果为通过时,将所述第一待审核数据作为所述目标标准化结果,将所述第一待审核数据作为第一映射标准数据,根据所述第一映射标准数据更新所述映射关系库。
进一步的,所述根据所述人工映射数据,确定所述目标标准化结果的步骤,包括:
将所述人工映射数据作为第二待审核数据;
将所述第二待审核数据发送给复核端;
获取所述复核端发送的第二人工复核结果;
当所述第二人工复核结果为通过时,将所述第二待审核数据作为所述目标标准化结果,将所述第二待审核数据作为NPL训练数据,将所述NPL训练数据输入所述目标NLP模型进行训练,得到训练后的所述目标NLP模型,将训练后的所述目标NLP模型用于下一次映射匹配,将所述第二待审核数据作为第二映射标准数据,根据所述第二映射标准数据更新所述映射关系库。
进一步的,所述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤之前,包括:
获取人工映射数据;
根据所述人工映射数据更新所述共现关系库。
本申请还提出了一种数据标准化装置,所述装置包括:
数据获取模块,用于获取待标准化数据;
映射模块,用于将所述待标准化数据输入映射关系库进行映射,得到映射结果;
NLP匹配模块,用于当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
共现匹配模块,用于当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
共现结果处理模块,用于根据所述共现结果,确定所述目标标准化结果。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
本申请的数据标准化方法、装置、介质及设备,首先通过映射关系库进行映射,映射成功则根据映射结果确定目标标准化结果,映射失败则通过目标NLP模型进行映射匹配;映射匹配成功则根据匹配结果确定目标标准化结果,映射匹配失败通过共现关系库得到共现结果,最后根据共现结果,确定目标标准化结果。因为整个过程实现了自动进行标准化,提高了标准化效率,降低了成本;又因为映射关系库、目标NLP模型、共现关系库是根据历史数据得到的,从而实现了对历史数据进行了充分利用。
附图说明
图1为本申请一实施例的数据标准化方法的流程示意图;
图2为本申请一实施例的数据标准化装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种数据标准化方法,所述方法包括:
S1:获取待标准化数据;
S2:将所述待标准化数据输入映射关系库进行映射,得到映射结果;
S3:当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
S4:当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
S5:根据所述共现结果,确定所述目标标准化结果。
本实施例首先通过映射关系库进行映射,映射成功则根据映射结果确定目标标准化结果,映射失败则通过目标NLP模型进行映射匹配;映射匹配成功则根据匹配结果确定目标标准化结果,映射匹配失败通过共现关系库得到共现结果,最后根据共现结果,确定目标标准化结果。因为整个过程实现了自动进行标准化,提高了标准化效率,降低了成本;又因为映射关系库、目标NLP模型、共现关系库是根据历史数据得到的,从而实现了对历史数据进行了充分利用。
对于步骤S1,可以从数据库中获取待标准化数据,也可以获取用户输入的待标准化数据。
待标准化数据包括但不限于:医疗数据、建筑数据。
优选的,所述待标准化数据包括待标准化的词。当数据库中获取的数据或用户输入的数据不是词时,需要对获取的数据进行分词,将分词的结果作为待标准化的词。
优选的,所述待标准化数据还包括条件标识。所述条件标识包括:区域标识、行业标识、版本标识中的至少一种,比如,区域标识包括国家、省等,行业标识包括医疗行业、建筑行业等,版本标识可以是ID、名称等唯一标识一个版本的标识。可以理解的是,所述条件标识还可以包含其他用于区分的标识,在此举例不做具体限定。
对于步骤S2,所述映射关系库包括第一关键字、第一标准化数据。所述映射关系库中的映射关系是一对一的映射关系,也就是说,每个第一关键字对应一个第一标准化数据。映射关系库中的第一关键字具有唯一性,也就是说,每个所述待标准化数据在所述映射关系库中最多只能查找到一个与所述待标准化数据相同的所述第一关键字。
其中,将所述待标准化数据在所述映射关系库中进行查找,当找到与所述待标准化数据相同的所述第一关键字时确定映射结果为成功,否则确定映射结果为失败。
优选的,当所述待标准化数据包括条件标识时,所述映射关系库还包括映射标识,每个第一关键字携带一个映射标识;将所述待标准化数据在所述映射关系库中进行查找,当找到与所述待标准化词相同的所述第一关键字,并且,找到的所述第一关键字对应的映射标识与所述待标准化数据的条件标识相同时确定所述映射结果为成功,否则确定所述映射结果为失败。从而使确定的映射结果与条件标识相关联,有利于提高目标标准化结果的准确性。
所述映射标识包括是区域标识、行业标识、版本标识中的至少一种,在此举例不做具体限定。
对于步骤S3,当所述映射结果为成功时,将所述映射结果对应的第一标准化数据作为目标标准化结果;当所述映射结果为失败时,将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果。
所述目标NLP模型是NLP模型(自然语言处理模型)。
优选的,当所述待标准化数据包括所述条件标识时,所述将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果的步骤,包括:根据所述待标准化数据的所述待标准化词及所述条件标识通过所述目标NLP模型进行映射匹配,得到所述匹配结果。
优选的,所述根据所述待标准化数据的所述待标准化词及所述条件标识通过所述目标NLP模型进行映射匹配,得到所述匹配结果的步骤,包括:将所述待标准化数据和所述条件标识输入所述目标NLP模型进行映射匹配,得到匹配结果。也就是说,不同的条件标识采用不同的目标NLP模型,从而有利于进一步提高有利于提高目标标准化结果的准确性。
优选的,所述根据所述待标准化数据的所述待标准化词及所述条件标识通过所述目标NLP模型进行映射匹配,得到所述匹配结果的步骤,包括:根据所述条件标识,确定所述目标NLP模型;将所述待标准化数据输入所述目标NLP模型进行映射匹配,得到匹配结果。
对于步骤S4,当所述匹配结果为成功时,从所述匹配结果中找出最大值,将找出的最大值作为目标匹配结果;将所述目标匹配结果对应的映射匹配数据作为所述目标标准化结果。
所述共现关系库包括:第二关键字、第二标准化数据,每个第二关键字对应一个第二标准化数据。
所述共现,是指特征项描述的信息共同出现的现象,比如,对于特征项描述的信息A-B,A是第二关键字,B是第二标准化数据,在共现关系库中A-B共同出现的次数,在此举例不做具体限定。
当所述匹配结果为失败时,将所述待标准化数据输入共现关系库,当找到与所述待标准化词相同的所有所述第二关键字,根据找出的所述第二关键字及对应的第二标准化数据确定共现数据、共现次数。
优选的,当所述待标准化数据包括条件标识时,所述共现关系库还包括共现标识;所述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤,包括:将所述待标准化数据的所述待标准化词及所述条件标识输入共现关系库,得到共现结果。也就是说,当找到与所述待标准化数据的所述待标准化词相同的所述第二关键字,并且,找到的所述第二关键字对应的共现标识与所述待标准化数据的所述条件标识相同时,则将该第二关键字和该第二关键字对应的第二标准化数据作为共现数据。根据所述共现数据确定共现结果。
共现标识包括是区域标识、行业标识、版本标识中的至少一种,在此举例不做具体限定。
对于步骤S5,当所述共现次数大于预设共现范围阈值最大值时,将所述共现次数对应的所述共现数据作为所述目标标准化结果,否则通过人工确定所述目标标准化结果。
在一个实施例中,上述将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果的步骤,包括:
S31:将所述待标准化数据输入目标NLP模型;
S32:通过所述目标NLP模型根据所述待标准化数据进行映射匹配,得到匹配关系数据;
S33:通过所述目标NLP模型对所述匹配关系数据进行相似度评分,得到相似度评分结果;
S34:当所述相似度评分结果小于预设评分阈值时确定所述匹配结果为失败,否则确定所述匹配结果为成功。
本实施例实现了通过目标NLP模型进行映射匹配,有利于提高数据标准化的效率。
对于步骤S32,匹配关系数据包括第三关键字、第三标准化数据。匹配关系数据中的第三关键字与所述待标准化数据相同。
可以理解的是,得到的所述匹配关系数据的数量包括至少一个,所述匹配关系数据的数量包括但不限于是一个、二个、三个、四个、五个。
对于步骤S33,通过所述目标NLP模型对所述匹配关系数据中第三关键字和第三标准化数据的相似度进行评分,将评分结果作为相似度评分结果。
对于步骤S34,当所述相似度评分结果全部小于预设评分阈值时,也意味着匹配关系数据的相似度评分小于预设评分阈值,则确定匹配结果为失败。当所述相似度评分结果大于或等于预设评分阈值时,也意味着匹配关系数据的相似度评分大于或等于预设评分阈值,则确定匹配结果为成功。通过设置预设评分阈值,有利于提高所述匹配结果的准确性,从而有利于提高确定目标标准化结果的准确性。
在一个实施例中,上述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤,包括:
S41:将所述待标准化数据在所述共现关系库中进行查找,得到共现数据;
S42:根据所述共现数据,确定所述共现关系数据和所述共现次数。
对于步骤S41,将所述待标准化数据在所述共现关系库中进行查找,当找到与所述待标准化数据相同的第二关键字,将找到的第二关键字作为目标第二关键字,将所有的目标第二关键字及与所述目标第二关键字对应的第三标准化数据作为共现数据。也就是说,找到目标第二关键字的数量可以是多个。目标第二关键字对应至少一个第三标准化数据。
对于步骤S42,根据所述共现数据,确定共现关系数据;计算所述共现关系数据在所述共现数据出现的次数,将该次数作为与所述共现关系数据对应的共现次数。共现关系数据中目标第二关键字和第三标准化数据一一对应。
比如,所述共现数据包括七个数据,分别是A-B、A-C、A-B、A-C、A-D、A-C、A-B,其中,A为目标第二关键字,B、C、D是与所述目标第二关键字对应的第三标准化数据,则A-B、A-C、A-D都是共现关系数据,在共现数据中A-B出现次数为3次,A-C出现次数为3次,A-D出现次数为1次,则共现关系数据A-B对应的共现次数为3,共现关系数据A-C对应的共现次数为3,共现关系数据A-D对应的共现次数为1,在此举例不做具体限定。
在一个实施例中,上述根据所述共现结果,确定所述目标标准化结果的步骤,包括:
S51:当所述共现次数大于第一次数阈值时,根据所述共现次数对应的所述共现关系数据,确定所述目标标准化结果;
S52:当所述共现次数小于或等于第一次数阈值,并且,所述共现次数大于第二次数阈值时,将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果;
S53:当所述共现次数小于或等于第二次数阈值时,将所述待标准化数据发送给映射端,获取所述映射端发送的人工映射数据,根据所述人工映射数据,确定所述目标标准化结果。
本实施例实现了根据共现次数确定得到目标标准化结果的流程,提高了提高标准化效率;通过引入人工,有利于处理疑难待标准化数据,从而实现了映射关系库、目标NLP模型、共现关系库与人工的结合,同时兼顾了标准化的效率和标准化的准确度。
对于步骤S51,当所述共现次数大于第一次数阈值时,将所述共现次数对应的所述共现关系数据,作为所述目标标准化结果。
优选的,所述第一次数阈值为5。可以理解的是,所述第一次数阈值还可以是其他数值,在此不做具体限定。
对于步骤S52,当所述共现次数小于或等于第一次数阈值,并且,所述共现次数大于第二次数阈值时,采用人工在复核端进行复核,然后通过复核端发送第一人工复核结果;根据复核端发送的第一人工复核结果确定目标标准化结果,减少了人工复核的工作量。
优选的,所述第二次数阈值为2。可以理解的是,所述第二次数阈值还可以是其他数值,在此不做具体限定。
对于步骤S53,当所述共现次数小于或等于第二次数阈值时,此时的所述共现次数对应的所述共现关系数据的准确度比较低,因此采用人工在映射端进行映射,然后通过映射端发送人工映射数据,根据人工映射数据确定目标标准化结果,有利于提高目标标准化结果的准确性。
在一个实施例中,上述将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果的步骤,包括:
S511:将所述共现次数对应的所述共现关系数据,作为第一待审核数据;
S512:将所述第一待审核数据发送给复核端;
S513:获取所述复核端发送的所述第一人工复核结果;
S514:当所述第一人工复核结果为通过时,将所述第一待审核数据作为所述目标标准化结果,将所述第一待审核数据作为第一映射标准数据,根据所述第一映射标准数据更新所述映射关系库。
本实施例采用人工复核的方式确定目标标准化结果,有利于提高目标标准化结果的准确性;而且所述第一人工复核结果为通过时根据所述第一映射标准数据更新所述映射关系库,从而实现了映射关系库的持续更新,进一步提高了数据标准化的效率。
对步骤S514,所述根据所述第一映射标准数据更新所述映射关系库的步骤,包括:将所述第一映射标准数据添加到所述映射关系库。
可以理解的是,还可以从其他数据源获取映射标准数据,将映射标准数据添加到所述映射关系库,在此不做具体限定。
在一个实施例中,上述根据所述人工映射数据,确定所述目标标准化结果的步骤,包括:
S521:将所述人工映射数据作为第二待审核数据;
S522:将所述第二待审核数据发送给复核端;
S523:获取所述复核端发送的第二人工复核结果;
S524:当所述第二人工复核结果为通过时,将所述第二待审核数据作为所述目标标准化结果,将所述第二待审核数据作为NPL训练数据,将所述NPL训练数据输入所述目标NLP模型进行训练,得到训练后的所述目标NLP模型,将训练后的所述目标NLP模型用于下一次映射匹配,将所述第二待审核数据作为第二映射标准数据,根据所述第二映射标准数据更新所述映射关系库。
本实施例在所述共现次数对应的所述共现关系数据的准确度比较低时,采用人工映射数据,根据人工映射数据确定目标标准化结果,有利于提高目标标准化结果的准确性;将所述第二待审核数据作为NPL训练数据,将所述NPL训练数据输入所述目标NLP模型进行训练,从而实现了目标NLP模型的持续训练更新,进一步提高了数据标准化的效率;而且所述第二人工复核结果为通过时根据所述第二映射标准数据更新所述映射关系库,从而进一步实现了映射关系库的持续更新,进一步提高了数据标准化的效率。
对步骤S524,所述将所述第二待审核数据作为第二映射标准数据,根据所述第二映射标准数据更新所述映射关系库的步骤,包括:将所述第二待审核数据作为第二映射标准数据,将第二映射标准数据添加到所述映射关系库中。
其中,将所述NPL训练数据输入所述目标NLP模型进行训练的方法可以从现有技术中选择,在此不做赘述。
可以理解的是,还可以从其他数据源获取NPL训练数据,在此不做具体限定。
在一个实施例中,上述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤之前,包括:
S61:获取人工映射数据;
S62:根据所述人工映射数据更新所述共现关系库。
本实施例通过根据所述人工映射数据更新所述共现关系库,从而进一步实现了共现关系库的持续更新,进一步提高了数据标准化的效率。
对步骤S61,可以从数据库中获取人工映射数据,也可以直接获取所述标准负责人发送的人工映射数据,还可以从第三方获取人工映射数据。
对步骤S62,将所述人工映射数据添加到所述共现关系库中。
可以理解的是,还可以从其他数据源获取人工映射数据,在此不做具体限定。
参照图2,本申请还提出了一种数据标准化装置,所述装置包括:
数据获取模块100,用于获取待标准化数据;
映射模块200,用于将所述待标准化数据输入映射关系库进行映射,得到映射结果;
NLP匹配模块300,用于当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
共现匹配模块400,用于当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
共现结果处理模块500,用于根据所述共现结果,确定所述目标标准化结果。
本实施例首先通过映射关系库进行映射,映射成功则根据映射结果确定目标标准化结果,映射失败则通过目标NLP模型进行映射匹配;映射匹配成功则根据匹配结果确定目标标准化结果,映射匹配失败通过共现关系库得到共现结果,最后根据共现结果,确定目标标准化结果。因为整个过程实现了自动进行标准化,提高了标准化效率,降低了成本;又因为映射关系库、目标NLP模型、共现关系库是根据历史数据得到的,从而实现了对历史数据进行了充分利用。
在一个实施例中,所述NLP匹配模块300包括:映射匹配子模块;
所述映射匹配子模块,用于将所述待标准化数据输入目标NLP模型,通过所述目标NLP模型根据所述待标准化数据进行映射匹配,得到匹配关系数据,通过所述目标NLP模型对所述匹配关系数据进行相似度评分,得到相似度评分结果,当所述相似度评分结果小于预设评分阈值时确定所述匹配结果为失败,否则确定所述匹配结果为成功。
在一个实施例中,所述共现匹配模块400包括:确定共现匹配子模块;
所述共现匹配子模块,用于将所述待标准化数据在所述共现关系库中进行查找,得到共现数据,根据所述共现数据,确定所述共现关系数据和所述共现次数。
在一个实施例中,所述共现匹配子模块包括:确定共现结果单元;
所述确定共现结果单元,用于当所述共现次数大于第一次数阈值时,根据所述共现次数对应的所述共现关系数据,确定所述目标标准化结果,当所述共现次数小于或等于第一次数阈值,并且,所述共现次数大于第二次数阈值时,将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果,当所述共现次数小于或等于第二次数阈值时,将所述待标准化数据发送给映射端,获取所述映射端发送的人工映射数据,根据所述人工映射数据,确定所述目标标准化结果。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存数据标准化方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标准化方法。所述数据标准化方法,包括:获取待标准化数据;将所述待标准化数据输入映射关系库进行映射,得到映射结果;当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;根据所述共现结果,确定所述目标标准化结果。
本实施例首先通过映射关系库进行映射,映射成功则根据映射结果确定目标标准化结果,映射失败则通过目标NLP模型进行映射匹配;映射匹配成功则根据匹配结果确定目标标准化结果,映射匹配失败通过共现关系库得到共现结果,最后根据共现结果,确定目标标准化结果。因为整个过程实现了自动进行标准化,提高了标准化效率,降低了成本;又因为映射关系库、目标NLP模型、共现关系库是根据历史数据得到的,从而实现了对历史数据进行了充分利用。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种数据标准化方法,包括步骤:获取待标准化数据;将所述待标准化数据输入映射关系库进行映射,得到映射结果;当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;根据所述共现结果,确定所述目标标准化结果。
上述执行的数据标准化方法,首先通过映射关系库进行映射,映射成功则根据映射结果确定目标标准化结果,映射失败则通过目标NLP模型进行映射匹配;映射匹配成功则根据匹配结果确定目标标准化结果,映射匹配失败通过共现关系库得到共现结果,最后根据共现结果,确定目标标准化结果。因为整个过程实现了自动进行标准化,提高了标准化效率,降低了成本;又因为映射关系库、目标NLP模型、共现关系库是根据历史数据得到的,从而实现了对历史数据进行了充分利用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种数据标准化方法,其特征在于,所述方法包括:
获取待标准化数据;
将所述待标准化数据输入映射关系库进行映射,得到映射结果;
当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
根据所述共现结果,确定所述目标标准化结果。
2.根据权利要求1所述的数据标准化方法,其特征在于,所述将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果的步骤,包括:
将所述待标准化数据输入目标NLP模型;
通过所述目标NLP模型根据所述待标准化数据进行映射匹配,得到匹配关系数据;
通过所述目标NLP模型对所述匹配关系数据进行相似度评分,得到相似度评分结果;
当所述相似度评分结果小于预设评分阈值时确定所述匹配结果为失败,否则确定所述匹配结果为成功。
3.根据权利要求1所述的数据标准化方法,其特征在于,所述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤,包括:
将所述待标准化数据在所述共现关系库中进行查找,得到共现数据;
根据所述共现数据,确定所述共现关系数据和所述共现次数。
4.根据权利要求1所述的数据标准化方法,其特征在于,所述根据所述共现结果,确定所述目标标准化结果的步骤,包括:
当所述共现次数大于第一次数阈值时,根据所述共现次数对应的所述共现关系数据,确定所述目标标准化结果;
当所述共现次数小于或等于第一次数阈值,并且,所述共现次数大于第二次数阈值时,将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果;
当所述共现次数小于或等于第二次数阈值时,将所述待标准化数据发送给映射端,获取所述映射端发送的人工映射数据,根据所述人工映射数据,确定所述目标标准化结果。
5.根据权利要求4所述的数据标准化方法,其特征在于,所述将所述共现次数对应的所述共现关系数据发送给复核端,获取复核端发送的第一人工复核结果,根据所述第一人工复核结果,确定所述目标标准化结果的步骤,包括:
将所述共现次数对应的所述共现关系数据,作为第一待审核数据;
将所述第一待审核数据发送给复核端;
获取所述复核端发送的所述第一人工复核结果;
当所述第一人工复核结果为通过时,将所述第一待审核数据作为所述目标标准化结果,将所述第一待审核数据作为第一映射标准数据,根据所述第一映射标准数据更新所述映射关系库。
6.根据权利要求4所述的数据标准化方法,其特征在于,所述根据所述人工映射数据,确定所述目标标准化结果的步骤,包括:
将所述人工映射数据作为第二待审核数据;
将所述第二待审核数据发送给复核端;
获取所述复核端发送的第二人工复核结果;
当所述第二人工复核结果为通过时,将所述第二待审核数据作为所述目标标准化结果,将所述第二待审核数据作为NPL训练数据,将所述NPL训练数据输入所述目标NLP模型进行训练,得到训练后的所述目标NLP模型,将训练后的所述目标NLP模型用于下一次映射匹配,将所述第二待审核数据作为第二映射标准数据,根据所述第二映射标准数据更新所述映射关系库。
7.根据权利要求4所述的数据标准化方法,其特征在于,所述将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数的步骤之前,包括:
获取人工映射数据;
根据所述人工映射数据更新所述共现关系库。
8.一种数据标准化装置,其特征在于,所述装置包括:
数据获取模块,用于获取待标准化数据;
映射模块,用于将所述待标准化数据输入映射关系库进行映射,得到映射结果;
NLP匹配模块,用于当所述映射结果为成功时根据所述映射结果,确定目标标准化结果,否则将所述待标准化数据输入目标NLP模型进行映射匹配,得到匹配结果;
共现匹配模块,用于当所述匹配结果为成功时根据所述匹配结果,确定所述目标标准化结果,否则将所述待标准化数据输入共现关系库,得到共现结果,所述共现结果包括共现关系数据、共现次数;
共现结果处理模块,用于根据所述共现结果,确定所述目标标准化结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010969757.7A CN112052645A (zh) | 2020-09-15 | 2020-09-15 | 数据标准化方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010969757.7A CN112052645A (zh) | 2020-09-15 | 2020-09-15 | 数据标准化方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052645A true CN112052645A (zh) | 2020-12-08 |
Family
ID=73604250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010969757.7A Pending CN112052645A (zh) | 2020-09-15 | 2020-09-15 | 数据标准化方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052645A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766395A (zh) * | 2017-03-03 | 2018-03-06 | 平安医疗健康管理股份有限公司 | 数据匹配方法和装置 |
CN109933692A (zh) * | 2019-04-01 | 2019-06-25 | 北京百度网讯科技有限公司 | 建立映射关系的方法和装置、信息推荐的方法和装置 |
CN110362601A (zh) * | 2019-06-19 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 元数据标准的映射方法、装置、设备及存储介质 |
-
2020
- 2020-09-15 CN CN202010969757.7A patent/CN112052645A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766395A (zh) * | 2017-03-03 | 2018-03-06 | 平安医疗健康管理股份有限公司 | 数据匹配方法和装置 |
CN109933692A (zh) * | 2019-04-01 | 2019-06-25 | 北京百度网讯科技有限公司 | 建立映射关系的方法和装置、信息推荐的方法和装置 |
CN110362601A (zh) * | 2019-06-19 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 元数据标准的映射方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN110825949A (zh) | 基于卷积神经网络的信息检索方法、及其相关设备 | |
CN112380840A (zh) | 文本纠错方法、装置、设备及介质 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN110162681B (zh) | 文本识别、文本处理方法、装置、计算机设备和存储介质 | |
CN117194602B (zh) | 基于大语言模型和bert模型的本地知识库更新方法及系统 | |
CN112613312B (zh) | 实体命名识别模型的训练方法、装置、设备及存储介质 | |
CN110851559A (zh) | 数据元自动识别方法和识别系统 | |
CN112380240A (zh) | 基于语义识别的数据查询方法、装置、设备及存储介质 | |
CN114595158A (zh) | 基于人工智能的测试用例生成方法、装置、设备及介质 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN109685576A (zh) | 一种工程材料自动配价方法、装置、终端设备及存储介质 | |
CN114416984A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 | |
CN112541739B (zh) | 问答意图分类模型的测试方法、装置、设备及介质 | |
CN112052645A (zh) | 数据标准化方法、装置、介质及设备 | |
CN112528882A (zh) | 基于ocr识别房产证信息确定方法、装置、设备及介质 | |
CN110866007B (zh) | 大数据应用和表的信息管理方法、系统和计算机设备 | |
CN116186658A (zh) | 一种用户身份验证的数据处理系统 | |
CN113724688B (zh) | 语音识别的后处理方法、装置和计算机设备 | |
CN114416847A (zh) | 一种数据转换的方法、装置、服务器及存储介质 | |
CN112668324B (zh) | 语料数据处理方法、装置、电子设备及存储介质 | |
CN113643143A (zh) | 基于人工智能的任务拆分方法、装置、设备及存储介质 | |
KR102308521B1 (ko) | 정보 업데이트 방법 및 장치 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN111340580A (zh) | 房型的确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220526 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201208 |