CN110704696A - 数据标准化方法、装置、电子设备及可读存储介质 - Google Patents

数据标准化方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110704696A
CN110704696A CN201910959141.9A CN201910959141A CN110704696A CN 110704696 A CN110704696 A CN 110704696A CN 201910959141 A CN201910959141 A CN 201910959141A CN 110704696 A CN110704696 A CN 110704696A
Authority
CN
China
Prior art keywords
data
processing result
processed
preset
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910959141.9A
Other languages
English (en)
Inventor
李月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Neusoft Wang Hai Technology Co Ltd
Original Assignee
Beijing Neusoft Wang Hai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Neusoft Wang Hai Technology Co Ltd filed Critical Beijing Neusoft Wang Hai Technology Co Ltd
Priority to CN201910959141.9A priority Critical patent/CN110704696A/zh
Publication of CN110704696A publication Critical patent/CN110704696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据标准化方法、装置、电子设备及可读存储介质。该方法包括:确定至少两个待处理数据分别与预设数据之间的第一处理结果,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。本申请实施例实现了自动对数据进行标准化处理,减少人力成本与时间成本,同时提高数据标准化的召回率。

Description

数据标准化方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种数据标准化方法、装置、电子设备及可读存储介质。
背景技术
随着互联网技术的发展,数据处理也越来越重要。通常情况下,数据处理的步骤包括数据抽取处理、数据清洗处理、数据转换处理、数据标准化处理以及数据加工处理。
针对数据标准化处理,通常指将来源不同的各式各样的数据整理为符合统一规则的数据,如不同的医院对普通放射科的命名不同,可能将普通放射科命名为放射/影像科、普放科、X光室、X线诊断室、普通放射室。由于命名的不统一,对不同医院的科室进行数据比对以及数据统计就存在很多困难,因需要对数据转换处理后的数据进行数据标准化处理。
目前,常采用人工的方式对数据进行数据标准化处理,不仅浪费人力与时间,并且需要长时间的人工投入,而且人工对数据进行数据标准化处理依赖于工作人员的水平。
发明内容
本申请提供了一种数据标准化方法、装置、电子设备及可读存储介质,可以解决以上至少一种技术问题。
第一方面,提供了一种数据标准化方法,该方法包括:
确定至少两个待处理数据分别与预设数据之间的第一处理结果,至少两个待处理数据为具有树结构的数据;
若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理;
若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据;
若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
第二方面,提供了一种数据标准化装置,该装置包括:
第一确定模块,用于确定至少两个待处理数据分别与预设数据之间的第一处理结果,至少两个待处理数据为具有树结构的数据;
第一处理模块,用于当第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理;
第二确定模块,用于当第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据;
第二处理模块,用于当父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的数据标准化方法对应的操作。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所示的数据标准化方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种数据标准化方法、装置、电子设备及可读存储介质,与现有技术相比,本申请通过确定至少两个待处理数据分别与预设数据之间的第一处理结果,其中,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,实现了自动对数据进行标准化处理,减少了人力成本与时间成本,同时提高了数据标准化的召回率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种数据标准化方法的流程示意图;
图2为本申请实施例提供的一种数据标准化装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种数据标准化方法,如图1所示,该方法包括:
步骤S101,确定至少两个待处理数据分别与预设数据之间的第一处理结果。
其中,至少两个待处理数据为具有树结构的数据。
对于本申请实施例,树结构指树数据结构。在本申请实施例中,将至少两个原始数据存入预设树结构模型,得到至少两个待处理数据。其中,预设树结构模型可以为二叉树模型,也可以为B树模型,还可以为其他的树模型,如多叉树模型,在本申请实施例中不做限定。
步骤S102,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理。
步骤S103,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果。
其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据。
步骤S104,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
对于本申请实施例,可以先对待处理数据的父节点数据进行数据标准化处理,再对待处理数据进行数据标准化处理。
本申请实施例提供了一种数据标准化方法,与现有技术相比,本申请实施例通过确定至少两个待处理数据分别与预设数据之间的第一处理结果,其中,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,实现了自动对数据进行标准化处理,减少了人力成本与时间成本,同时提高了数据标准化的召回率。其中,召回率为衡量待处理数据完成数据标准化的度量。
本申请实施例的另一种可能实现方式,步骤S101可以包括:计算各个待处理数据分别与预设标准化库中的各个数据之间的第一相似度值,并确定多个第一相似度值之中的最大第一相似度值。
对于本申请实施例,预设数据包括预设标准化库中的数据,第一处理结果包括最大第一相似度值。
对于本申请实施例,利用预设第一相似度算法计算各个待处理数据分别与预设标准化库中的各个数据之间的第一相似度值,并确定多个第一相似度值之中的最大第一相似度值。在本申请实施例中,预设第一相似度算法可以为余弦cosine算法、jacarrd算法、jaro算法、字符串相似度算法(levenshtein Distance算法)以及monge_elkan算法中的任一项,还可以为其他相似度算法,可以计算文本数据的相似度,也可以计算其他类型数据的相似度,在本申请实施例中不做限定。
例如,待处理数据为“X射线室”、“普放科”以及“放射/影像室”,预设标准库中的数据为“X光室”、“普通放射室”以及“X线诊断室”,则利用预设第一相似度算法计算“X射线室”分别与“X光室”、“普通放射室”以及“X线诊断室”的第一相似度值,并确定三个第一相似度值中的最大第一相似度值;同样的,利用预设第一相似度算法计算“普放科”分别与“X光室”、“普通放射室”以及“X线诊断室”的第一相似度值,并确定三个第一相似度值中的最大第一相似度值,及利用预设第一相似度算法计算“放射/影像室”分别与“X光室”、“普通放射室”以及“X线诊断室”的第一相似度值,并确定三个第一相似度值中的最大第一相似度值。
本申请实施例的另一种可能实现方式,确定第一处理结果满足第一预设条件的方式,包括:当最大第一相似度值大于第一预设标准化阈值时,确定第一处理结果满足第一预设条件。
对于本申请实施例,任一个待处理数据的最大第一相似度值大于第一预设标准化阈值时,确定任一个待处理数据的第一处理结果满足第一预设条件。其中,第一预设标准化阈值可以为设定的一个值,也可以为通过计算得到的一个值,在本申请实施例中不做限定。
例如,若“X射线室”与“X光室”之间的第一相似度值0.85为最大第一相似度值,则“X射线室”对应的最大第一相似度值为0.85,第一预设标准化阈值为0.7,由于0.85大于0.7,因此确定“X射线室”对应的第一处理结果满足第一预设条件。
本申请实施例的另一种可能实现方式,步骤S101具体可以包括:若最大第一相似度值不满足第一预设条件,计算各个待处理数据分别与各个预设标准数据之间的第二相似度值,并确定多个第二相似度值中的最大第二相似度值。
对于本申请实施例,预设数据还包括预设标准数据,第一处理结果还包括最大第二相似度值。
对于本申请实施例,若最大第一相似度值不大于预设标准化阈值时,利用预设第二相似度算法计算各个待处理数据分别与各个预设标准数据之间的第二相似度值,并确定多个第二相似度值之中的最大第二相似度值。在本申请实施例中,预设第二相似度算法可以为余弦cosine算法、jacarrd算法、jaro算法、字符串相似度算法(levenshtein Distance算法)以及monge_elkan算法中的任一项,还可以为其他相似度算法,在本申请实施例中不做限定。
例如,待处理数据为“X射线室”、“普放科”以及“放射/影像室”,预设标准数据为“普通放射科”和“X射线诊断室”,则利用预设第二相似度算法计算“X射线室”分别与“普通放射科”和“X射线诊断室”的第二相似度值,并确定两个第二相似度值中的最大第二相似度值;同样的,利用预设第二相似度算法计算“普放科”分别与“普通放射科”和“X射线诊断室”的第二相似度值,并确定两个第二相似度值中的最大第二相似度值,及利用预设第二相似度算法计算“放射/影像室”分别与“普通放射科”和“X射线诊断室”的第二相似度值,并确定两个第二相似度值中的最大第二相似度值。
本申请实施例的另一种可能实现方式,确定第一处理结果满足第一预设条件的方式,具体可以包括:当最大第二相似度值大于第二预设标准化阈值时,确定第一处理结果满足第一预设条件。
对于本申请实施例,任一个待处理数据的最大第二相似度值大于第二预设标准化阈值时,确定任一个待处理数据的第一处理结果满足第一预设条件。其中,第二预设标准化阈值可以为设定的一个值,也可以为通过计算得到的一个值,在本申请实施例中不做限定。
例如,若“X射线室”与“X射线诊断室”之间的第二相似度值0.95为最大第二相似度值,则“X射线室”对应的最大第二相似度值为0.95,第二预设标准化阈值为0.75,由于0.95大于0.75,因此确定“X射线室”对应的第一处理结果满足第一预设条件。
本申请实施例的另一种可能实现方式,步骤S102具体可以包括:若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据标注第一处理结果;对第一处理结果对应的待处理数据标注第一处理结果对应的预设数据。
对于本申请实施例,对第一处理结果对应的待处理数据标注第一处理结果,以及第一处理结果对应的预设数据的方式为:分别建立第一处理结果以及第一处理结果对应的预设数据,与待处理数据之间的对应关系,如“X射线室”的第一处理结果为0.85,“X射线室”对应的第一处理结果对应的预设数据为“X射线诊断室”,则标注结果为:“X射线室(X射线诊断室,0.85)”。
对于本申请实施例,标注的方式可以为建立对应关系,也可以为其他的标注方式,在本申请实施例中不做限定。
本申请实施例的另一种可能实现方式,步骤S103具体可以包括:若第一处理结果不满足第一预设条件,且若待处理数据对应的父节点数据已经过数据标准化处理,则确定各个父节点数据对应的最大第三相似度值。
对于本申请实施例,第二处理结果包括最大第三相似度值,其中,最大第三相似度值可以为父节点数据与预设标准化库中的数据之间的最大第一相似度值,也可以为父节点数据与预设标准数据之间的最大第二相似度值,在本申请实施例中不做限定。
例如,待处理数据为“心内小红组”,若“心内小红组”的第一处理结果不满足第一预设条件,则当确定“心内小红组”对应的父节点数据“心内科”已数据标准化处理之后,如“心内科(心脏内科,0.78)”,确定“心内科”对应的最大第三相似度值,即0.78。
本申请实施例的另一种可能实现方式,确定父节点数据对应的第二处理结果满足第二预设条件的方式,具体可以包括:当最大第三相似度值大于第三预设标准化阈值时,确定父节点数据对应的第二处理结果满足第二预设条件。如上面实施例中,父节点数据“心内科”对应的最大第三相似度值为0.78,第三预设标准化阈值为0.7,由于0.78大于0.7,因此确定该父节点数据“心内科”对应的第二处理结果满足第二预设条件。
对于本申请实施例,任一个父节点数据的最大第三相似度值大于第三预设标准化阈值时,确定任一个父节点数据的第二处理结果满足第二预设条件。其中,第三预设标准化阈值可以为设定的一个值,也可以为通过计算得到的一个值,在本申请实施例中不做限定。
本申请实施例的另一种可能实现方式,步骤S104具体可以包括:若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据标注第二处理结果;对第二处理结果对应父节点数据的待处理数据标注第二处理结果对应的预设数据。
对于本申请实施例,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据标注第二处理结果以及第二处理结果对应的预设数据的方式为:建立第二处理结果对应的父节点数据的待处理数据与第二处理结果之间的对应关系,以及第二处理结果对应的父节点数据的待处理数据与第二处理结果对应的预设数据之间的对应关系,如上面实施例中,“心内小红组”对应父节点数据“心内科”,其中,“心内科”的标注结果为“心内科(心脏内科,0.78)”,在“心内科”对应的第二处理结果0.78满足第二预设条件的情况下,对“心内小红组”进行标注后得到的标注结果为“心内小红组(心脏内科,0.78)”。
对于本申请实施例,标注的方式可以为建立对应关系,也可以为其他的标注方式,在本申请实施例中不做限定。
对于本申请实施例,利用父节点数据对应的第二处理结果,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,能有效地提高待处理数据的召回率。
本申请实施例的另一种可能实现方式,数据标准化方法还可以包括:若满足预设排序条件,按照待处理数据的至少一个预设结果对待处理数据进行排序,选取排序后的至少一个待处理数据以列表的形式发送至预设终端设备。
其中,预设排序条件包括以下一项:父节点数据对应的第二处理结果不满足第二预设条件;待处理数据对应的父节点数据未经过数据标准化处理。
待处理数据的至少一个预设结果包括以下一项:待处理数据分别与各个预设数据之间的第三处理结果;待处理数据分别与各个预设数据之间的第三处理结果,以及父节点数据对应的第二处理结果。
对于本申请实施例,待处理数据分别与各个预设数据之间的第三处理结果,可以为待处理数据分别与预设标准化库中的各个数据之间的第一相似度值,也可以为待处理数据分别与各个预设标准数据之间的第二相似度值,在本申请实施例中不做限定。
对于本申请实施例,可以按照第三处理结果的数值大小,对待处理数据进行排序,并选取排序后的至少一个待处理数据以列表的形式发送至预设终端设备,以使用户对列表中的待处理数据进行人工数据标准化处理。
对于本申请实施例,还可以按照第三处理结果数值大小以及第二处理结果的数值大小,对待处理数据进行排序,在本申请实施例中不做限定。
本申请实施例的另一种可能实现方式,步骤S104之后还包括:将数据标准化处理之后的待处理数据存入预设标准化库。
对于本申请实施例,数据标准化处理之后的待处理数据包括:第一数据标准化处理之后的待处理数据、第二数据标准化处理之后的待处理数据,以及人工数据标准化处理之后的待处理数据。
对于本申请实施例,随着预设标准化库中的数据数量的增大,最大第一相似度大于第一预设标准化阈值的概率会增大,导致第一处理结果满足第一预设条件的概率也会增大,能有效的对数据进行第一标准化处理,保证了待处理数据的召回率,同时节省了人工数据标准化处理所耗费的人力和时间成本。
对于本申请实施例,上述实施例可以由终端设备执行,也可以由服务器执行,也可以部分由终端设备执行,部分由服务器执行。在本申请实施例中不做限定。
上述从方法步骤的角度具体阐述了数据标准化方法,下面从虚拟模块或者虚拟单元的角度介绍数据标准化装置,具体如下所示:
本申请实施例提供了一种数据标准化装置,如图2所示,该数据标准化装置20可以包括:第一确定模块201、第一处理模块202、第二确定模块203以及第二处理模块204,其中,
第一确定模块201,用于确定至少两个待处理数据分别与预设数据之间的第一处理结果。
其中至少两个待处理数据为具有树结构的数据。
第一处理模块202,用于当第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理。
第二确定模块203,用于当第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果。
其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据。
第二处理模块204,用于当父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
本申请实施例的另一种可能实现方式,第一确定模块201包括第一计算确定单元,其中,
第一计算确定单元,用于计算各个待处理数据分别与预设标准化库中的各个数据之间的第一相似度值,并确定多个第一相似度值之中的最大第一相似度值。
本申请实施例的另一种可能实现方式,第一处理模块202在确定第一处理结果满足第一预设条件时,包括第一确定单元,其中,
第一确定单元,用于当最大第一相似度值大于第一预设标准化阈值时,确定第一处理结果满足第一预设条件。
本申请实施例的另一种可能实现方式,第一确定模块201还包括第二计算确定单元,其中,
第二计算确定单元,用于当最大第一相似度值不满足第一预设条件,计算各个待处理数据分别与各个预设标准数据之间的第二相似度值,并确定多个第二相似度值中的最大第二相似度值。
本申请实施例的另一种可能实现方式,第一处理模块202在确定第一处理结果满足第一预设条件时,还包括第二确定单元,其中,
第二确定单元,用于当最大第二相似度值大于第二预设标准化阈值时,确定第一处理结果满足第一预设条件。
本申请实施例的另一种可能实现方式,第一处理模块202包括第一标注单元和第二标注单元,其中,
第一标注单元,用于对第一处理结果对应的待处理数据标注第一处理结果。
第二标注单元,用于对第一处理结果对应的待处理数据标注第一处理结果对应的预设数据。
本申请实施例的另一种可能实现方式,第二确定模块203,具体用于若待处理数据对应的父节点数据已经过数据标准化处理,则确定各个父节点数据对应的最大第三相似度值。
本申请实施例的另一种可能实现方式,第二处理模块204在确定父节点数据对应的第二处理结果满足第二预设条件的方式时,具体用于当最大第三相似度值大于第三预设标准化阈值时,确定父节点数据对应的第二处理结果满足第二预设条件。
本申请实施例的另一种可能实现方式,第二处理模块204包括第三标注单元和第四标注单元,其中,
第三标注单元,用于对第二处理结果对应父节点数据的待处理数据标注第二处理结果;
第四标注单元,用于对第二处理结果对应父节点数据的待处理数据标注第二处理结果对应的预设数据。
本申请实施例的另一种可能实现方式,数据标准化处理装置20还包括排序发送模块,其中,
排序发送模块,用于若满足预设排序条件,按照待处理数据的至少一个预设结果对待处理数据进行排序,选取排序后的至少一个待处理数据以列表的形式发送至预设终端设备。
其中,预设排序条件包括以下一项:父节点数据对应的第二处理结果不满足第二预设条件;待处理数据对应的父节点数据未经过数据标准化处理。
其中,待处理数据的至少一个预设结果包括以下一项:待处理数据分别与各个预设数据之间的第三处理结果;待处理数据分别与各个预设数据之间的第三处理结果,以及父节点数据对应的第二处理结果中的一项。
本申请实施例的另一种可能实现方式,数据标准化装置20还包括存入模块,其中,
存入模块,用于将数据标准化处理之后的待处理数据存入预设标准化库。
对于本申请实施例,第一确定模块201和第二确定模块203可以为同一个确定模块,也可以为两个不同的确定模块;第一处理模块202和第二处理模块204可以为同一个处理模块,也可以为两个不同的处理模块;第一计算确定单元和第二计算确定单元可以为用一个计算确定单元,也可以为两个不同的计算确定单元;第一确定单元和第二确定单元可以为同一个确定单元,也可以为两个不同的确定单元;第一标注单元和第二标注单元可以为同一个标注单元,也可以为两个不同的标注单元;第三标注单元和第四标注单元可以为同一个标注单元,也可以为两个不同的标注单元,在本申请实施例中不做限定。
本申请实施例中的数据标准化装置20可以执行本申请方法实施例中的数据标准化方法,其实现原理类似,在此不再赘述。
本申请实施例提供了一种数据标准化装置,与现有技术相比,本申请实施例通过确定至少两个待处理数据分别与预设数据之间的第一处理结果,其中,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,实现了自动对数据进行标准化处理,减少了人力成本与时间成本,同时提高了数据标准化的召回率。
上述从虚拟模块或者虚拟单元的角度介绍本申请的数据标准化装置,下面从实体装置的角度介绍本申请的电子设备。
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:本申请实施例通过确定至少两个待处理数据分别与预设数据之间的第一处理结果,其中,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,实现了自动对数据进行标准化处理,减少了人力成本与时间成本,同时提高了数据标准化的召回率。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例通过确定至少两个待处理数据分别与预设数据之间的第一处理结果,其中,至少两个待处理数据为具有树结构的数据,若第一处理结果满足第一预设条件,对第一处理结果对应的待处理数据进行第一数据标准化处理,若第一处理结果不满足第一预设条件,确定各个父节点数据对应的第二处理结果,其中,父节点数据为待处理数据对应的已经过数据标准化处理的父节点数据,若父节点数据对应的第二处理结果满足第二预设条件,对第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理,实现了自动对数据进行标准化处理,减少了人力成本与时间成本,同时提高了数据标准化的召回率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据标准化方法,其特征在于,包括:
确定至少两个待处理数据分别与预设数据之间的第一处理结果,所述至少两个待处理数据为具有树结构的数据;
若所述第一处理结果满足第一预设条件,对所述第一处理结果对应的待处理数据进行第一数据标准化处理;
若所述第一处理结果不满足所述第一预设条件,确定各个父节点数据对应的第二处理结果,所述父节点数据为所述待处理数据对应的已经过数据标准化处理的父节点数据;
若所述父节点数据对应的第二处理结果满足第二预设条件,对所述第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
2.根据权利要求1所述的方法,其特征在于,所述确定至少两个待处理数据分别与预设数据之间的第一处理结果,包括:
计算各个待处理数据分别与预设标准化库中的各个数据之间的第一相似度值,并确定多个第一相似度值之中的最大第一相似度值。
3.根据权利要求2所述的方法,其特征在于,确定所述第一处理结果满足所述第一预设条件的方式,包括:
当所述最大第一相似度值大于第一预设标准化阈值时,确定所述第一处理结果满足所述第一预设条件。
4.根据权利要求2或3所述的方法,其特征在于,所述确定至少两个待处理数据分别与预设数据之间的第一处理结果,包括:
若所述最大第一相似度值不满足所述第一预设条件,计算各个待处理数据分别与各个预设标准数据之间的第二相似度值,并确定多个第二相似度值中的最大第二相似度值。
5.根据权利要求4所述的方法,其特征在于,确定所述第一处理结果满足所述第一预设条件的方式,包括:
当所述最大第二相似度值大于第二预设标准化阈值时,确定所述第一处理结果满足所述第一预设条件。
6.根据权利要求1所述的方法,其特征在于,所述确定各个父节点数据对应的第二处理结果,包括:
若所述待处理数据对应的父节点数据已经过数据标准化处理,则确定各个父节点数据对应的最大第三相似度值。
7.根据权利要求6所述的方法,其特征在于,确定所述父节点数据对应的第二处理结果满足所述第二预设条件的方式,包括:
当所述最大第三相似度值大于第三预设标准化阈值时,确定所述父节点数据对应的第二处理结果满足所述第二预设条件。
8.一种数据标准化装置,其特征在于,包括:
第一确定模块,用于确定至少两个待处理数据分别与预设数据之间的第一处理结果,所述至少两个待处理数据为具有树结构的数据;
第一处理模块,用于当所述第一处理结果满足第一预设条件,对所述第一处理结果对应的待处理数据进行第一数据标准化处理;
第二确定模块,用于当所述第一处理结果不满足所述第一预设条件,确定各个父节点数据对应的第二处理结果,所述父节点数据为所述待处理数据对应的已经过数据标准化处理的父节点数据;
第二处理模块,用于当所述父节点数据对应的第二处理结果满足第二预设条件,对所述第二处理结果对应父节点数据的待处理数据进行第二数据标准化处理。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1-7任一项所述的数据标准化方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的数据标准化方法。
CN201910959141.9A 2019-10-10 2019-10-10 数据标准化方法、装置、电子设备及可读存储介质 Pending CN110704696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959141.9A CN110704696A (zh) 2019-10-10 2019-10-10 数据标准化方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959141.9A CN110704696A (zh) 2019-10-10 2019-10-10 数据标准化方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110704696A true CN110704696A (zh) 2020-01-17

Family

ID=69199107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959141.9A Pending CN110704696A (zh) 2019-10-10 2019-10-10 数据标准化方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110704696A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392939A (zh) * 2021-08-16 2021-09-14 江苏苏宁银行股份有限公司 一种行业代码标准化方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN106845058A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 疾病数据的标准化方法及标准化装置
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN107103048A (zh) * 2017-03-31 2017-08-29 苏州艾隆信息技术有限公司 药品信息匹配方法及系统
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845058A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 疾病数据的标准化方法及标准化装置
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN107103048A (zh) * 2017-03-31 2017-08-29 苏州艾隆信息技术有限公司 药品信息匹配方法及系统
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392939A (zh) * 2021-08-16 2021-09-14 江苏苏宁银行股份有限公司 一种行业代码标准化方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111259137B (zh) 知识图谱摘要的生成方法及系统
CN110825323B (zh) 浮点数数据的存储、读取方法和计算机可读存储介质
CN111353754A (zh) 流程模板的生成方法、装置、电子设备及可读存储介质
CN111126045A (zh) 一种文本纠错方法和装置
CN109871408B (zh) 一种多类型数据库适配方法、装置、电子设备及存储介质
CN110704696A (zh) 数据标准化方法、装置、电子设备及可读存储介质
CN110704699A (zh) 数据画像的构建方法、装置、计算机设备及存储介质
CN113962401A (zh) 联邦学习系统、联邦学习系统中的特征选择方法及装置
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN107391627B (zh) 数据的内存占用分析方法、装置及服务器
CN116468967B (zh) 样本图像筛选方法、装置、电子设备及存储介质
CN116579300A (zh) 多源异构数据的自动化转换方法和装置
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN112052667B (zh) 一种实现医学编码映射的方法、装置及设备
CN112818684B (zh) 地址元素排序方法、装置、电子设备及存储介质
US10409704B1 (en) Systems and methods for resource utilization reporting and analysis
CN109857859B (zh) 新闻信息的处理方法、装置、设备以及存储介质
CN110888811A (zh) 代码覆盖率信息处理方法、装置、电子设备及介质
CN112447279A (zh) 任务处理方法、装置、电子设备及存储介质
CN114003630B (zh) 一种数据搜索方法、装置、电子设备及存储介质
CN111198879A (zh) 基于智慧社区的业务数据存储方法及系统
CN113093702B (zh) 故障数据的预测方法和装置、电子设备和存储介质
CN113626489B (zh) 传感器数据的搜索方法、系统及计算机介质
CN111738536B (zh) 设备操作方法、装置、电子设备和计算机可读介质
CN115774800B (zh) 基于numa架构的时变图处理方法、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 801-2, floor 8, building 3, No. 22, Ronghua Middle Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Wanghai Kangxin (Beijing) Technology Co.,Ltd.

Address before: Room 07, Room 2, Building B, 12 Hongda North Road, Beijing Daxing District, Beijing

Applicant before: BEIJING NEUSOFT VIEWHIGH TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication