CN107038330A - 一种数据缺失的补偿方法和装置 - Google Patents

一种数据缺失的补偿方法和装置 Download PDF

Info

Publication number
CN107038330A
CN107038330A CN201610957922.0A CN201610957922A CN107038330A CN 107038330 A CN107038330 A CN 107038330A CN 201610957922 A CN201610957922 A CN 201610957922A CN 107038330 A CN107038330 A CN 107038330A
Authority
CN
China
Prior art keywords
data
shortage
specified dimension
combination
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610957922.0A
Other languages
English (en)
Other versions
CN107038330B (zh
Inventor
史晓宇
郝瑞瑞
张大磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tulip Partner Technology Co Ltd
Original Assignee
Beijing Tulip Partner Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tulip Partner Technology Co Ltd filed Critical Beijing Tulip Partner Technology Co Ltd
Priority to CN201610957922.0A priority Critical patent/CN107038330B/zh
Publication of CN107038330A publication Critical patent/CN107038330A/zh
Application granted granted Critical
Publication of CN107038330B publication Critical patent/CN107038330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据缺失的补偿方法及装置,其中,数据缺失的补偿方法包括如下步骤:获取用于表征对象信息的对象数据;获取与对象数据中的各个维度组合映射的各个预设结论判决结果;根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性;判断第一数据缺失性是否大于预设阈值;如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿。从而,可以先确定数据的缺失性,再在对象数据中选择数据对缺失的数据进行针对性的增值补偿,进而,可以完成在数据缺失不确定的情况下对数据进行针对性的补偿,以便在较短的时间内获得相应的结论判决结果。

Description

一种数据缺失的补偿方法和装置
技术领域
本发明涉及数据挖掘和机器学习技术领域,具体涉及到一种数据缺失的补偿方法和装置。
背景技术
在现有的数据挖掘和机器学习技术中,常会遇到高维数据的某些维度缺失的问题。数据的维度可以是低层次的某个数据向量的某一维,也可以是多模态数据中的某个模态,或者是某种语义信息。
在现有技术中对数据缺失的问题的处理,通常会提前定义好完整的特征维度,直接得知缺失的维度到底有哪些,对于这些缺失的维度,往往会对这些缺失的维度进行补0,或直接剔除这些缺失的维度。
但是,运用现有技术的处理方法时,并不能清晰的得知当前数据是否存在缺失,并且在当前数据下采用补0或降维的方式可能会导致根据现有获得的数据无法得到需要的最终结论判决结果。
因此,如何在数据缺失不确定的情况下对数据进行针对性的补偿成为亟待解决的问题。
发明内容
本发明要解决的技术问题在于在数据缺失不确定的情况下对数据进行针对性的补偿。
为此,根据第一方面,本发明实例提供了一种数据缺失的补偿方法,包括:
获取用于表征对象信息的对象数据,对象数据为多维度数据和/或多模态数据;获取与对象数据中的各个维度组合映射的各个预设结论判决结果;根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度;判断第一数据缺失性是否大于预设阈值;如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合。
优选地,根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,包括:通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合;获取各个维度组合中的数据在映射关系集合中的第一概率;通过第一概率得到指定维度组合的第一数据缺失性。
优选地,在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合,包括:在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据,对指定维度组合进行补偿,得到多个预补偿的指定维度组合;根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性;第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响;根据第二数据缺失性对多个预补偿的指定维度组合排序;选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。
优选地,在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合,还包括:在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据;获取可用数据在映射关系集合中的第二概率;根据第二概率对可用的数据进行排序;选择第二概率最高的所诉可用数据对指定维度组合进行补偿,作为完成补偿的指定维度组合。
优选地,根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性;第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度;判断第三数据缺失性是否大于预设阈值;如果第三数据缺失性大于预设阈值,则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合的步骤。
根据第二方面,本发明实施例提供了一种数据缺失的补偿装置,包括:第一获取单元,用于获取用于表征对象信息的对象数据,对象数据为多维度数据和/或多模态数据;
第二获取单元,用于获取与对象数据中的各个维度组合映射的各个预设结论判决结果;第一数据缺失性得到单元,用于据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度;第一判断单元,用于判断第一数据缺失性是否大于预设阈值;补偿单元,用于如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合。
优选地,第一数据缺失性得到单元包括:训练数据子单元,用于通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合;第一获取子单元,用于获取各个维度组合中的数据在映射关系集合中的第一概率;第一缺失性得到子单元,用于通过第一概率得到指定维度组合的第一数据缺失性。
优选地,补偿单元包括:预补偿子单元,用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据,对指定维度组合进行补偿,得到多个预补偿的指定维度组合;第二缺失性子单元,用于根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性;第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响;第一排序子单元,用于根据第二数据缺失性对多个预补偿的指定维度组合排序;第一选择子单元,用于选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。
优选地,补偿单元还包括:第二选择子单元,用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据;第二获取子单元,用于获取可用数据在映射关系集合中的第二概率;第二排序子单元,用于根据第二概率对可用的数据进行排序;第三选择子单元,用于选择概率最高的可用的数据对指定维度组合进行补偿作为完成补偿的指定维度组合。
优选地,第二数据缺失性得到单元,用于根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性;第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度;第二判断单元,用于判断第三数据缺失性是否大于预设阈值;返回单元,用于如果第三数据缺失性大于预设阈值,则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合的步骤。
本发明实施例提供的数据缺失的补偿方法,通过获取用于表征对象信息的对象数据,对象数据为多维度数据;获取与对象数据中的各个维度组合映射的各个预设结论判决结果;根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度;判断第一数据缺失性是否大于预设阈值;如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合,从而,可以根据获取的对象数据和存在的预设结论判决结果的映射关系确定数据的缺失性,然后在对象数据中选择数据对缺失的维度组合进行针对性的增值补偿,进而,可以完成在数据缺失不确定的情况下对数据进行针对性的补偿,以便在较短的时间内获得相应的结论判决结果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本实施例的数据缺失的补偿方法的流程图;
图2示出了本实施例的数据缺失的补偿方法中数据缺失性得到方法的流程图;
图3示出了本实施例的数据缺失的补偿方法中补偿数据方法的流程图;
图4示出了本实施例的数据缺失的补偿方法中补偿数据方法的流程图;
图5示出了本实施例的数据缺失补偿验证方法的流程图;
图6示出了本实施的数据缺失的补偿装置示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供了一种数据缺失的补偿方法,如图1所示,包括如下步骤:
S10.获取用于表征对象信息的对象数据。在本实施中,所称的对象数据可以是多维度数据,也可以是多模态数据,具体地,多模态数据可以是通过不同的方法或角度收集的例如声音、图像或文字等数据。
S20.获取与对象数据中的各个维度组合映射的各个预设结论判决结果。在具体的实施例中,每一套对象数据中存在多个维度组合,理论上都可以分别得到对应的多个结论判决结果,可以获取与对象数据对应的理论上的结论判决结果。在本实施例中,对象数据的获取和预设结论判决结果的获取可以是同步获取,也可以有先后顺序,可以先获取对象数据,也可以先获取预设结论判决结果。
S30.根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一缺失性。在本实施例中,所称的第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度,例如,如果指定维度组合中有三个数据,缺失第二数据后,根据第一数据和第三数据得到的结论判决结果为预设结论判决结果完整性的百分之八十,则该数据的缺失性为百分之二十。在具体的实施例中,每个维度组合与结论判决结果之间都存在这一个映射关系,该映射关系可以为:其中,为某个维度组合,Ωj为与该维度组合对应的结论判决结果,f为映射关系法则。通过统计各维度组合中的数据在映射关系中重要性,可以得到该数据在该映射关系中的缺失度,即可确定指定维度组合的缺失性。在本实施例中,所称的指定维度组合中某些数据缺失可以是多维度数据中的某些数据的缺失,也可以是多模态数据中的某个模态或者某种语义信息的缺失。
S40.判断第一缺失性是否大于预设阈值。在具体的实施例中,可以预先设置缺失性的阈值,该阈值的设置可以根据缺失性对结果影响程度设置。如果第一缺失性大于预设阈值,则进入步骤S50。如果第一缺失性小于预设阈值,则可以认为指定维度组合不缺失数据或缺失的数据对结论判决结果无影响。
S50.在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿。以得到完成补偿的指定维度组合。在具体的实施例中,在确认指定维度组合数据缺失后,可以从指定维度组合之外的对象数据中选择该缺失数据的指定维度组合需要的数据对该指定组合进行补偿,由于之前的映射关系已经确定,选择数据需要从已经获取的对象数据中选择,选择的数据可以是该指定组合缺失的数据,也可以是当选择的数据对该指定维度组合的结论判决结果有帮助的数据。
下面将结合图2详细的介绍确定数据缺失的过程:
S31.通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合。在具体的实施例中,每个维度组合与预设结论判决结果之间都存在这一个映射关系,该映射关系可以为:多个维度组合与对应的多个预设结论判决结果之间的映射关系可以组合成一个映射关系集合,例如映射关系集合可以表示为:
其中F为映射关系集合。
S32.获取各个维度组合中的数据在映射关系集合中的第一概率。在具体的实施例中,分别统计各个维度组合中的数据在所有的映射关系中所占的概率,例如在映射关系的集合中的概率为可以由以下公式表示:
其中,第一项表示数据ni在当前映射关系fj下所有数据nk中的出现频率。第二项表示在所有的映射集合F中,包含有数据ni的映射概率。
但是,在实际情况中,由于有数据的缺失,数据的缺失可能会对结论判决结果有影响,因而出现数据的概率会被抑制,所以,第一概率会变为其中,α为概率抑制系数,α<1。
S33.通过第一概率得到指定维度组合的第一数据缺失性。在具体的实施例中,数据在映射关系集合中的第一概率为可以根据统计学的计算公式得到该数据的缺失性,例如,缺失性计算公式可以由如下公式表示:
其中H为数据缺失性。
如果当前数据缺失性H大于预设阈值,则可以确认数据缺失。
在可选的实施例中,对有数据缺失性的指定维度组合进行补偿的方法,如图3所示,可以包括如下步骤:
S51a.在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据对指定维度组合进行补偿,得到多个预补偿的指定维度组合。在具体的实施例中,现在指定维度组合之外的对象数据中选择能够对该指定组合结论判决结果有帮助的数据补入该有数据缺失的指定维度组合中,可以生成多个预补偿的指定维度组合。
S52a.根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性。本实施例中所称的第二数据缺失性用于表征与补偿的指定维度组合的数据缺失对判决结果的影响。在本实施例中,得到第二数据缺失性的方法如上述实施例中步骤S31至步骤S33的方法,分别得到各个预补偿的指定维度组合的第二数据缺失性。
S53a.根据第二数据缺失性对多个预补偿的指定维度组合进行排序。在具体的实施例中,可以以各个预补偿的指定维度组合的数据缺失性的大小,对各个预补偿的指定维度组合进行排序。
S54a.选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。
在可选的实施例中,在本实施例中还提供了另一种对有数据缺失性的指定维度组合进行补偿的方法,如图4所示,包括如下步骤:
S51b.在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据。具体选择方法参见上述实施例步骤S51a。
S52b.获取可用数据在映射关系集合中的第二概率。具体获取第二概率的方法参见上述实施例步骤S32。
S53b.选择第二概率最高的可用数据对当指定维度组合进行补偿,作为完成补偿的指定维度组合。在本实施例中,可以选择排序靠前可用数据对指定位置组合进行补偿。
为保证补偿后数据后的指定维度组合可用,还需对完成补偿的指定维度组合进行数据缺失性验证,如图5所示,对完成补偿的指定维度组合进行数据缺失性验证的方法包括如下步骤:
S60.根据完成补偿的指定维度组合与指定维度组合对应的预设结论判决结果得到第三数据缺失性。第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度。第三数据缺失得到的方法参见上述步骤S30。
S70.判断第三数据的缺失性是否大于预设阈值。如果第三数据缺失性大于预设阈值,则返回步骤步S50继续对指定维度组合进行补偿。如果第三数据缺失性小于预设阈值,则完成数据补偿。
为便于本领域技术人员理解,本实施例还可选的示例了上述方法的一种应用,以对象数据是预存的病人症状信息的集合;各个维度组合中的指定维度组合是获取的特定症状信息组合为例进行说明。可以预先对对象数据(症状信息的集合)进行训练,得到各个维度组合(各个症状信息组合)与各种预设结论判决结果(预设诊断结果)的映射关系。具体地,在对对对象数据(症状信息的集合)进行训练时,可以采用离线的方式。而后采用上述实施例公开的数据缺失的补偿方法确定特定症状信息组合的缺失性、对数据进行针对性的补偿。例如:如果存在数据缺失,则表明症状信息存在缺失,则需要继续获取病人的症状信息,以补偿缺失的特定症状信息;而后,判断补偿后的特定症状信息组合对应的结论是否符合对应的映射关系下的预设诊断结果,如果符合预设诊断结果,则表明补偿后的特定症状信息组合不存在缺失性,或缺失性在可接受误差范围内,可以通过特定症状信息组合得到预设诊断结果。
本发明实施例还提供了一种数据缺失的补偿装置,如图6所示,该装置包括:
第一获取单元100,用于获取用于表征对象信息的对象数据,对象数据为多维度数据或多模态数据;第二获取单元200,用于获取与对象数据中的各个维度组合映射的各个预设结论判决结果;第一数据缺失性得到单元300,用于据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度;第一判断单元400,用于判断第一数据缺失性是否大于预设阈值;补偿单元500,用于如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合。
在可选的实施例中,第一数据缺失性得到单元300,包括:训练数据子单元,用于通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合;第一获取子单元,用于获取各个维度组合中的数据在映射关系集合中的第一概率;第一缺失性得到子单元,用于通过第一概率得到指定维度组合的第一数据缺失性。
在可选的实施例中,补偿单元500可以包括:预补偿子单元,用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据,对指定维度组合进行补偿,得到多个预补偿的指定维度组合;第二数据缺失性子单元,用于根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性;第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响;第一排序子单元,用于根据第二数据缺失性对多个预补偿的指定维度组合排序;第一选择子单元,用于选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。
在可选的实施例中,补偿单元500还可以包括:第二选择子单元,用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据;第二获取子单元,用于获取可用数据在映射关系集合中的第二概率;第二排序子单元,用于根据第二概率对可用的数据进行排序;第三选择子单元,用于选择概率最高的可用的数据对指定维度组合进行补偿作为完成补偿的指定维度组合。
在可选的实施例中,数据缺失的补偿装置还包括:第二数据缺失性得到单元,用于根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性;第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度;第二判断单元,用于判断第三数据缺失性是否大于预设阈值;返回单元,用于如果第三数据缺失性大于预设阈值,则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合。
本实施例公开的数据缺失的补偿方法和装置,通过获取用于表征对象信息的对象数据,对象数据为多维度数据;获取与对象数据中的各个维度组合映射的各个预设结论判决结果;根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性,第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度;判断第一数据缺失性是否大于预设阈值;如果第一数据缺失性大于预设阈值,则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿,以得到完成补偿的指定维度组合,从而,可以根据获取的对象数据和存在的预设结论判决结果的映射关系确定数据的缺失性,然后在对象数据中选择数据对缺失的维度组合进行针对性的增值补偿,进而,可以完成在数据缺失不确定的情况下对数据进行针对性的补偿,以便在较短的时间内获得相应的结论判决结果。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种数据缺失的补偿方法,其特征在于,包括如下步骤:
获取用于表征对象信息的对象数据,所述对象数据为多维度数据和/或多模态数据;
获取与所述对象数据中的各个维度组合映射的各个预设结论判决结果;
根据所述各个维度组合和所述各个预设结论判决结果的映射关系得到所述各个维度组合中指定维度组合的第一数据缺失性,所述第一数据缺失性用于表征所述指定维度组合的数据缺失对判决结果的影响程度;
判断所述第一数据缺失性是否大于预设阈值;
如果所述第一数据缺失性大于所述预设阈值,则在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合。
2.根据权利要求1所述的数据缺失的补偿方法,其特征在于,所述根据所述各个维度组合和所述各个预设结论判决结果的映射关系得到所述各个维度组合中指定维度组合的第一数据缺失性,包括:
通过训练数据得到所述各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合;
获取所述各个维度组合中的数据在所述映射关系集合中的第一概率;
通过所述第一概率得到所述指定维度组合的第一数据缺失性。
3.根据权利要求1所述的数据缺失的补偿方法,其特征在于,所述在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合,包括:
在所述指定维度组合之外的所述对象数据中选择所述指定维度组合需要的任意可用数据,对所述指定维度组合进行补偿,得到多个预补偿的指定维度组合;
根据所述多个预补偿的指定维度组合和与所述指定维度组合对应的所述预设结论判决结果得到第二数据缺失性;所述第二数据缺失性用于表征所述多个与补偿的指定维度组合的数据缺失对判决结果的影响;
根据所述第二数据缺失性对所述多个预补偿的指定维度组合排序;
选择第二数据缺失性最小的预补偿的指定维度组合作为所述完成补偿的指定维度组合。
4.根据权利要求2所述的数据缺失的补偿方法,其特征在于,所述在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合,还包括:
在所述指定维度组合之外的所述对象数据中选择所述指定维度组合需要的任意可用数据;
获取所述可用数据在所述映射关系集合中的第二概率;
根据所述第二概率对所述可用的数据进行排序;
选择所述第二概率最高的所诉可用数据对所述指定维度组合进行补偿,作为所述完成补偿的指定维度组合。
5.根据权利要求1-4任一项所述的数据缺失的补偿方法,其特征在于,还包括:
根据所述完成补偿的指定维度组合和与所述指定维度组合对应的预设结论判决结果得到第三数据缺失性;所述第三数据缺失性用于表征所述完成补偿的指定维度组合的数据缺失对判决结果的影响程度;
判断所述第三数据缺失性是否大于所述预设阈值;
如果所述第三数据缺失性大于所述预设阈值,则返回在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合的步骤。
6.一种数据缺失的补偿装置,其特征在于,包括:
第一获取单元,用于获取用于表征对象信息的对象数据,所述对象数据为多维度数据和/或多模态数据;
第二获取单元,用于获取与所述对象数据中的各个维度组合映射的各个预设结论判决结果;
第一数据缺失性得到单元,用于据所述各个维度组合和所述各个预设结论判决结果的映射关系得到所述各个维度组合中指定维度组合的第一数据缺失性,所述第一数据缺失性用于表征所述指定维度组合的数据缺失对判决结果的影响程度;
第一判断单元,用于判断所述第一数据缺失性是否大于预设阈值;
补偿单元,用于如果所述第一数据缺失性大于所述预设阈值,则在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合。
7.根据权利要求6所述的数据缺失的补偿装置,其特征在于,所述第一数据缺失性得到单元包括:
训练数据子单元,用于通过训练数据得到所述各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合;
第一获取子单元,用于获取所述各个维度组合中的数据在所述映射关系集合中的第一概率;
第一缺失性得到子单元,用于通过所述第一概率得到所述指定维度组合的第一数据缺失性。
8.根据权利要求6所述的数据缺失的补偿装置,其特征在于,所述补偿单元,包括:
预补偿子单元,用于在所述指定维度组合之外的所述对象数据中选择所述指定维度组合需要的任意可用数据,对所述指定维度组合进行补偿,得到多个预补偿的指定维度组合;
第二数据缺失性子单元,用于根据所述多个预补偿的指定维度组合和与所述指定维度组合对应的所述预设结论判决结果得到第二数据缺失性;所述第二数据缺失性用于表征所述多个与补偿的指定维度组合的数据缺失对判决结果的影响;
第一排序子单元,用于根据所述第二数据缺失性对所述多个预补偿的指定维度组合排序;
第一选择子单元,用于选择第二数据缺失性最小的预补偿的指定维度组合作为所述完成补偿的指定维度组合。
9.根据权利要求7所述的数据缺失的补偿装置,其特征在于,所述补偿单元还包括:
第二选择子单元,用于在所述指定维度组合之外的所述对象数据中选择所述指定维度组合需要的任意可用数据;
第二获取子单元,用于获取所述可用数据在所述映射关系集合中的第二概率;
第二排序子单元,用于根据所述第二概率对所述可用的数据进行排序;
第三选择子单元,用于选择概率最高的可用的数据对所述指定维度组合进行补偿作为所述完成补偿的指定维度组合。
10.根据权利要求6-9任一项所述的数据缺失的补偿装置,其特征在于,还包括:
第二数据缺失性得到单元,用于根据所述完成补偿的指定维度组合和与所述指定维度组合对应的预设结论判决结果得到第三数据缺失性;所述第三数据缺失性用于表征所述完成补偿的指定维度组合的数据缺失对判决结果的影响程度;
第二判断单元,用于判断所述第三数据缺失性是否大于所述预设阈值;
返回单元,用于如果所述第三数据缺失性大于所述预设阈值,则返回在所述指定维度组合之外的所述对象数据中选择数据对所述指定维度组合进行补偿,以得到完成补偿的指定维度组合。
CN201610957922.0A 2016-10-27 2016-10-27 一种数据缺失的补偿方法和装置 Active CN107038330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610957922.0A CN107038330B (zh) 2016-10-27 2016-10-27 一种数据缺失的补偿方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610957922.0A CN107038330B (zh) 2016-10-27 2016-10-27 一种数据缺失的补偿方法和装置

Publications (2)

Publication Number Publication Date
CN107038330A true CN107038330A (zh) 2017-08-11
CN107038330B CN107038330B (zh) 2020-09-08

Family

ID=59530345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610957922.0A Active CN107038330B (zh) 2016-10-27 2016-10-27 一种数据缺失的补偿方法和装置

Country Status (1)

Country Link
CN (1) CN107038330B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580509A (zh) * 2019-09-12 2019-12-17 杭州海睿博研科技有限公司 基于隐藏表征和深度生成对抗模型的多模态数据处理系统和方法
WO2023050649A1 (zh) * 2021-09-29 2023-04-06 平安科技(深圳)有限公司 基于数据补全的esg指数确定方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926169A (en) * 1988-11-28 1990-05-15 Unisys Corp. Coder-decoder for purged extended golay (22,7) codes
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103036846A (zh) * 2012-12-27 2013-04-10 上海创远仪器技术股份有限公司 应用于通信系统接收机的i/q不平衡补偿控制方法
CN104809226A (zh) * 2015-05-07 2015-07-29 武汉大学 一种早期分类不平衡多变量时间序列数据的方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926169A (en) * 1988-11-28 1990-05-15 Unisys Corp. Coder-decoder for purged extended golay (22,7) codes
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103036846A (zh) * 2012-12-27 2013-04-10 上海创远仪器技术股份有限公司 应用于通信系统接收机的i/q不平衡补偿控制方法
CN104809226A (zh) * 2015-05-07 2015-07-29 武汉大学 一种早期分类不平衡多变量时间序列数据的方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580509A (zh) * 2019-09-12 2019-12-17 杭州海睿博研科技有限公司 基于隐藏表征和深度生成对抗模型的多模态数据处理系统和方法
WO2023050649A1 (zh) * 2021-09-29 2023-04-06 平安科技(深圳)有限公司 基于数据补全的esg指数确定方法及相关产品

Also Published As

Publication number Publication date
CN107038330B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN110543631B (zh) 机器阅读理解的实现方法、装置、存储介质及电子设备
CN106528845B (zh) 基于人工智能的检索纠错方法及装置
CN110728290B (zh) 检测数据模型安全性的方法及装置
EP1329734A1 (en) Diagnostic test system
CN109089172B (zh) 一种弹幕显示方法、装置及电子设备
CN107038330A (zh) 一种数据缺失的补偿方法和装置
CA2529271A1 (en) Decision support system and method
CN103473285B (zh) 基于位置标记的网页信息抽取方法和装置
CN115145812B (zh) 测试用例生成方法、装置、电子设备和存储介质
CN107743619A (zh) 用以验证drc迭组的测试布局的自动产生技术
CN110135413B (zh) 一种字符识别图像的生成方法、电子设备和可读存储介质
CN111475402A (zh) 程序功能的测试方法及相关装置
EP1795980A1 (en) Plant simulator
KR101268479B1 (ko) 고장수목 분석 시 메모리 사용량을 최소화하기 위한 고속의 기기중요도 계산방법
Soh et al. Memory constraints on cross situational word learning
CN113192028A (zh) 人脸图像的质量评价方法、装置、电子设备及存储介质
Snyder et al. Neologicism, Frege's Constraint, and the Frege‐Heck Condition
CN111507455B (zh) 神经网络系统生成方法和装置、图像处理方法和电子设备
Liang et al. Towards establishing practical multi-hazard bridge design limit states
CN106980749A (zh) 疾病的快速辅助定位方法
CN113407593A (zh) 数据抽检方法、装置、电子设备和可读存储介质
CN111858862A (zh) 一种答复推荐方法、答复推荐装置及电子设备
CN104281583B (zh) 信息检索方法及装置
JP2021131557A5 (zh)
KR102663746B1 (ko) 텐던 손상진단을 위한 인공지능 진단모델의 학습방법과 학습시스템, 그리고 이를 위한 추가 학습데이터의 형성시스템 및 형성방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant