CN111797077A - 数据清洗方法、装置、存储介质及电子设备 - Google Patents

数据清洗方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111797077A
CN111797077A CN201910282140.5A CN201910282140A CN111797077A CN 111797077 A CN111797077 A CN 111797077A CN 201910282140 A CN201910282140 A CN 201910282140A CN 111797077 A CN111797077 A CN 111797077A
Authority
CN
China
Prior art keywords
data
cleaned
event
user
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910282140.5A
Other languages
English (en)
Inventor
陈仲铭
何明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910282140.5A priority Critical patent/CN111797077A/zh
Publication of CN111797077A publication Critical patent/CN111797077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据清洗方法、装置、存储介质及电子设备,电子设备可以获取需要进行数据清洗的待清洗数据集合,识别待清洗数据集合中各待清洗数据对应的用户主体,以及识别待清洗数据集合中各待清洗数据对应的事件,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。由此,不仅提升了数据质量,更节省了数据存储空间。

Description

数据清洗方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据清洗方法、装置、存储介质及电子设备。
背景技术
目前,如何对海量的数据进行数据分析已经成为电子设备不得不面对的考验,而对数据进行数据分析的首要工作就是数据清洗,通俗的说,即识别并滤除“脏数据”、保留“干净数据”。
发明内容
第一方面,本申请实施例提供一种数据清洗方法,应用于电子设备,包括:
获取需要进行数据清洗的待清洗数据集合,所述待清洗数据集合包括多个待清洗数据;
识别所述待清洗数据集合中各待清洗数据对应的用户主体;
识别所述待清洗数据集合中各待清洗数据对应的事件;
对所述待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
第二方面,本申请实施例提供一种数据清洗装置,应用于电子设备,包括:
数据获取模块,用于获取需要进行数据清洗的待清洗数据集合,所述待清洗数据集合包括多个待清洗数据;
主体识别模块,用于识别所述待清洗数据集合中各待清洗数据对应的用户主体;
事件识别模块,用于识别所述待清洗数据集合中各待清洗数据对应的事件;
数据清洗模块,用于对所述待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的数据清洗方法中的步骤。
第四方面,本申请实施例提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的数据清洗方法中的步骤。
在本申请实施例中,电子设备可以获取需要进行数据清洗的待清洗数据集合,识别待清洗数据集合中各待清洗数据对应的用户主体,以及识别待清洗数据集合中各待清洗数据对应的事件,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。由此,不仅提升了数据质量,更节省了数据存储空间。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的全景感知架构的结构示意图。
图2是本申请实施例提供的数据清洗方法的一流程示意图。
图3是本申请实施例中电子设备对待清洗数据集合进行去重的示意图。
图4是本申请实施例提供的数据清洗方法的另一流程示意图。
图5是本申请实施例中提供的数据清洗方法的应用场景示意图。
图6是本申请实施例提供的数据清洗装置的结构示意图。
图7是本申请实施例提供的电子设备的一结构示意图。
图8是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
随着传感器的小型化、智能化,如手机、平板电脑等电子设备集成了越来越多的传感器,比如光线传感器、距离传感器、位置传感器、加速度传感器以及重力传感器,等等。电子设备能够通过其配置的传感器以更小的功耗采集到更多的数据。同时,电子设备在运行过程中还会采集到自身状态相关的数据以及用户状态相关的数据,等等。笼统的说,电子设备能够获取到外部环境相关的数据、用户状态相关的数据以及电子设备状态相关的数据。笼统的说,电子设备能够获取到外部环境相关的数据(比如温度、光照、地点、声音、天气等)、用户状态相关的数据(比如姿势、速度、使用习惯、个人基本信息等)以及电子设备状态相关的数据(比如耗电量、资源使用状况、网络状况等)。本申请实施例中,将电子设备能够获取到的这些数据记为全景数据。
本申请实施例中,为了能够对电子设备获取到的这些数据进行处理,提出了一种全景感知架构。请参照图1,图1为本申请实施例提供的全景感知架构的结构示意图,应用于电子设备,其包括由下至上的信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
作为全景感知架构的最底层,信息感知层用于获取能够描述用户的各类型情景的原始数据,即全景数据。其中,信息感知层由多个用于数据采集的传感器组成,包括但不限于图示的用于检测电子设备与外部物体之间的距离的距离传感器、用于检测电子设备所处环境的磁场信息的磁场传感器、用于检测电子设备所处环境的光线信息的光线传感器、用于检测电子设备的加速度数据的加速度传感器、用于采集用户的指纹信息的指纹传感器、用于感应磁场信息的霍尔传感器、用于检测电子设备当前所处的地理位置的位置传感器、用于检测电子设备在各个方向上的角速度的陀螺仪、用于检测电子设备的运动数据惯性传感器、用于感应电子设备的姿态信息的姿态感应器、用于检测电子设备所处环境的气压的气压计以及用于检测用户的心率信息的心率传感器等。
作为全景感知架构的次底层,数据处理层用于对信息感知层获取到的原始数据进行处理,消除原始数据存在的噪声、不一致等问题。其中,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
作为全景感知架构的中间层,特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取所述数据中包括的特征。其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
作为全景感知架构的次高层,情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
作为全景感知架构的最高层,智能服务层用于根据情景建模层所构建的模型提供智能化服务。比如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行系统智能优化服务,还可以为用户提供个性化智能服务等。
此外,全景感知架构中还包括算法库,算法库中包括但不限于图示的马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络以及循环神经网络等算法。
电子设备采集到的数据也越来越繁杂,尤其是传感器针对同一用户主体、同一事件的数据可能会出现交叉重复的情形,这不仅给实际的数据分析工作带来噪声和挑战,同时也增加了电子设备的存储负担。为此,本申请实施例提供一种数据清洗方法、装置、存储介质及电子设备,其中数据清洗方法的执行主体可以是本申请实施例提供的数据清洗装置,或者集成了该数据清洗装置的电子设备,其中该数据清洗装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
基于本申请实施例所提供的数据清洗方法,信息感知层将采集到的全景数据提供给数据处理层;数据处理层将来自于信息感知层的全景数据作为需要进行数据清洗的待清洗数据,构建待清洗数据集合,并对所述待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合,提供给特征抽取层;特征抽取层对来自于数据处理层的去重后的待清洗数据集合中的数据进行特征抽取,并将抽取到的特征提供给情景建模层;情景建模层基于来自于特征抽取层的特征进行建模,利用建模得到的模型来表征电子设备的状态或者用户状态或者环境状态等;最后,智能服务层根据情景建模层所构建的模型提供对应的智能化服务,比如基础应用服务、系统优化服务、个性化服务等。
请参照图2,图2是本申请实施例提供的数据清洗方法的一流程示意图。该数据清洗方法可以应用于电子设备,实现于全景感知架构的数据处理层,该数据清洗方法的流程可以包括:
在101中,获取需要进行数据清洗的待清洗数据集合,待清洗数据集合包括多个待清洗数据。
本申请实施例中,电子设备可以从本地获取需要进行数据清洗的待清洗数据集合,也可以从其它电子设备处获取需要进行数据清洗的待清洗数据集合,还可以从网络获取需要进行数据清洗的待清洗数据集合,等等。其中,待清洗数据集合包括多个待清洗数据。
比如,存在一其它电子设备,该其它电子设备通过其配置的传感器采集到多个传感器数据,且由这多个传感器数据构成一个传感器数据集合,该其它电子设备需要基于该传感器数据集合进行用户行为分析,为此,该其它电子设备生成数据清洗请求,并将该传感器数据集合以及生成的数据清洗请求发送至电子设备。相应的,电子设备在接收到该其它电子设备所发送的数据清洗请求以及传感器数据集合之后,将该来自其它电子设备的传感器数据集合作为需要进行数据清洗的待清洗数据集合,其中的传感器数据也即是待清洗数据。
在102中,识别待清洗数据集合中各待清洗数据对应的用户主体。
本申请实施例中,电子设备在获取到需要进行数据清洗的待清洗数据集合之后,对于该待清洗数据集合中的每一待清洗数据,电子设备对其用户主体进行识别。由此,电子设备将识别到待清洗数据集合中各待清洗数据所对应的用户主体。本领域普通技术人员应当理解的是,对于待清洗数据集合中任意两个待清洗数据,其所对应用户主体可以相同,也可以不同。
比如,电子设备识别到待清洗数据A所对应的用户主体为电子设备的机主A,识别到待清洗数据B所对应的用户主体也为机主A,但识别到待清洗数据C所对应的用户主体为机主A授权使用电子设备的用户B。
在103中,识别待清洗数据集合中各待清洗数据对应的事件。
本申请实施例中,电子设备在获取到需要进行数据清洗的待清洗数据集合之后,除了识别待清洗数据集合中各待清洗数据对应的用户主体之外,还识别待清洗数据集合中各待清洗数据对应的事件。本领域普通技术人员应当理解的是,对于待清洗数据集合中任意两个待清洗数据,其所对应的事件可以相同,也可以不同。
比如,电子设备识别到待清洗数据A所对应的事件为事件A,识别到待清洗数据B所对应的事件为事件A,识别到待清洗数据C所对应的事件为事件C。
应当说明的是,在本申请实施例中,电子设备执行102和103的顺序不受序号影响,可以是执行完成102之后再执行103,也可以是执行完成103之后在执行102,还可以是同时执行102和103。
在104中,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
本申请实施例中,电子设备在识别到待清洗数据集合中各待清洗数据对应的用户主体以及事件之后,根据各待清洗数据所对应的用户主体以及事件,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
比如,请参照图3,将电子设备获取到待清洗数据集合中包括3个待清洗数据,分别为待清洗数据A、待清洗数据B以及待清洗数据C,且电子设备识别到待清洗数据A所对应的用户主体为用户主体A、所对应的事件为事件A,识别到待清洗数据B所对应的用户主体为用户主体A、所对应的事件为事件B,识别到待清洗数据C所对应的用户主体为用户主体A、所对应的事件为事件A。可以看出,其中待清洗数据A和待清洗数据C的用户主体和事件均重复,也即是待清洗数据A和待清洗数据C互为冗余数据,此时,电子设备对待清洗数据集合进行去重处理,可以删除待清洗数据C而保留待清洗数据A,这样得到的、去重后的待清洗数据集合将包括待清洗数据A和待清洗数据B,如图3所示。此外,电子设备还可以删除待清洗数据A而保留待清洗数据C,这样得到的、去重后的待清洗数据集合将包括待清洗数据B和待清洗数据C。
由上可知,本申请实施例中,电子设备可以获取需要进行数据清洗的待清洗数据集合,识别待清洗数据集合中各待清洗数据对应的用户主体,以及识别待清洗数据集合中各待清洗数据对应的事件,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。由此,不仅提升了数据质量,更节省了数据存储空间。
在一实施例中,“获取需要进行数据清洗的待清洗数据集合”包括:
(1)、获取电子设备的传感器采集的多个传感器数据;
(2)、将传感器数据作为待清洗数据构建待清洗数据集合。
本领域普通技术人员可以理解的是,电子设备为了能够感知其自身所处的环境以及自身的运动等,通常配置有多个不同类型的传感器,比如用于感知自身所处位置的位置传感器(如GPS传感器、北斗传感器等)、用于感知自身运动的加速度传感器、陀螺仪等、以及用于感知自身所处环境的光线传感器、声音传感器等。
然而,这些传感器采集的到的传感器数据中存在大量冗余的数据,也即是针对同一用户主体、同一事件交叉重复的数据,这就使得电子设备需要对这些数据进行清洗,来减轻电子设备的数据存储负担,以及提升后续数据分析工作的效率。因此,在本申请实施例中,电子设备在获取需要进行数据清洗的待清洗数据集合时,可以获取自身的传感器所采集的多个传感器数据,将传感器数据作为待清洗数据构建待清洗数据集合,以对其进行数据清洗。其中,对于如何对待清洗数据集合进行数据清洗可参照以上实施例中的相关描述,此处不再赘述。
在一实施例中,“识别待清洗数据集合中各待清洗数据对应的用户主体”包括:
(1)获取待清洗数据对应的用户特征;
(2)根据待清洗数据对应的用户特征建立用户画像;
(3)根据待清洗数据对应的用户画像识别其对应的用户主体。
其中,电子设备在识别待清洗数据集合中各待清洗数据对应的用户主体时,对于待清洗数据集合中的任一待清洗数据,电子设备首先获取到该待清洗数据对应的用户特征,比如,电子设备获取到待清洗数据对应的用户特征S=(s1,s2,s3,……,sM),其中包括M个不同维度的用户特征,包括但不限于应用程序使用维度(如使用了哪些应用程序的特征)、电子设备使用维度(在哪些时间段使用电子设备的特征),应用程序操作维度(如搜索哪些内容、点击哪些内容等特征)等等。
电子设备在获取到待清洗数据对应的用户特征之后,采用用户画像技术建立对应的用户画像。应当说明的是,在本申请实施例中并不限制采用何种用户画像技术来建立待清洗数据所对应的用户画像,可由本领域普通技术人员根据经验选取合适的用户画像技术。
本领域普通技术人员可以理解的是,用户画像也即是抽象出的一个标签化的用户模型,这样,电子设备在根据待清洗数据对应的用户特征建立用户画像之后,即可根据待清洗数据所对应的用户画像来识别其对应的用户主体。
如上所述,电子设备可以识别到待清洗数据集合中各待清洗数据所对应的用户主体。
在一实施例中,“获取待清洗数据对应的用户特征”包括:
(1)获取待清洗数据对应的用户描述信息集合,用户描述信息集合包括多个不同维度的用户描述信息;
(2)将待清洗数据的用户描述信息集合输入预先训练的多通道神经网络模型,得到多通道神经网络模型输出的待清洗数据的用户特征。
本申请实施例中,电子设备在获取待清洗数据的用户特征时,首先获取到该待清洗数据所对应的用户描述信息集合,该用户描述信息集合由多个不同维度的用户描述信息构成。其中,用户描述信息用于描述用户行为,比如,描述用户使用了哪些应用程序的描述信息、描述用户在哪些时间段使用电子设备的描述信息、描述用户搜索了哪些内容的描述信息以及描述用户点击了哪些内容的描述信息等。
应当说明的是,在本申请实施例中,还采用机器学习算法预先训练有多通道神经网络模型,该多通道神经网络模型应用对不同维度的用户描述信息进行融合、表征,输出对应的用户特征。由此,电子设备在获取到待清洗数据对应的用户描述信息集合之后,即可将待清洗数据的用户描述信息集合输入到预先训练的多通道神经网络模型中进行处理,得到多通道神经网络模型输出的待清洗数据的用户特征。
在一实施例中,“识别待清洗数据集合中各待清洗数据对应的事件”包括:
(1)获取待清洗数据对应的事件特征;
(2)根据待清洗数据的事件特征识别待清洗数据对应的事件。
其中,电子设备在识别待清洗数据集合中各待清洗数据对应的事件时,对于待清洗数据集合中的任一待清洗数据,电子设备首先获取到该待清洗数据所对应的事件特征。比如,对于一待清洗数据,电子设备可以直接从该待清洗数据的属性信息中提取出该待清洗数据的事件特征E=(e1,e2,e3,……eN),其中包括N个不同维度的事件特征,包括但不限于时间维度、空间维度等。
电子设备在获取到待清洗数据对应的事件特征之后,即可采用事件识别技术来识别待清洗数据所对应的事件。
如上所述,电子设备可以识别到待清洗数据集合中各待清洗数据所对应的事件。
在一实施例中,“根据待清洗数据的事件特征识别待清洗数据对应的事件”包括:
(1)获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度;
(2)将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。
在本申请实施例中,还预先定义有多个不同的事件,将这些事件记为预定义事件,对于每一个预定义事件,通过对应的事件特征进行描述。由此,电子设备在根据待清洗数据的事件特征识别待清洗数据对应的事件时,可以获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度,并将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。其中,本申请实施例对于预设相似度的取值不做具体限制,可由本领域普通技术人员根据经验取合适值。
比如,假设预设相似度被配置为85%,若获取到待清洗数据的事件特征与预定义事件A的事件特征的相似度为40%、获取到待清洗数据的事件特征与预定义事件B的事件特征的相似度为50%、获取到待清洗数据的事件特征与预定义事件C的事件特征的相似度为70%、获取到待清洗数据的事件特征与预定义事件D的事件特征的相似度为86,可以看出,预定义事件D的事件特征与待清洗数据的事件特征之间的相似度达到预设相似度(85%),此时,电子设备将预定义事件D作为待清洗数据所对应的事件。
此外,若不存在相似度达到预设相似度的预定义事件,则电子设备将多个预定义事件中对应相似度最高的预定义事件作为待清洗数据所对应的事件。
此外,应当说明的是,不同预定义事件的事件特征之间的相似度均小于前述预设相似度。
在一实施例中,“获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度”包括:
(1)获取待清洗数据的事件特征与预定义事件的事件特征之间的特征距离;
(2)将获取到的特征距离作为待清洗数据的事件特征与预定义事件的事件特征之间的相似度。
本申请实施例中,采用特征距离来衡量两个事件特征之间的相似度,由此,电子设备在获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度时,对于任一预定义事件,电子设备可以获取待清洗数据的事件特征与该预定义事件的事件特征之间的特征距离,并将获取到的特征距离作为待清洗数据的事件特征与该预定义事件的事件特征之间的相似度。
其中,对于选取何种特征距离来衡量两个事件特征之间的相似度,可由本领域普通技术人员根据实际需要进行选取,包括但不限于欧氏距离、曼哈顿距离、切比雪夫距离以及余弦距离等。
比如,可以采用余弦距离来衡量两个事件特征之间的相似度,如下公式:
Figure BDA0002022015980000101
其中,e表示待清洗数据的事件特征与预定义事件的事件特征之间的余弦距离,f表示待清洗数据的事件特征,N表示特征维度(待清洗数据的事件特征和预定义事件的事件特征的维度相同),fi表示待清洗数据的事件特征中第i维度的特征,gi表示预定义事件的事件特征中第i维度的特征。
在一实施例中,“根据待清洗数据的事件特征识别待清洗数据对应的事件”可以包括:
根据待清洗数据的事件特征以及预先训练的事件识别模型,识别待清洗数据对应的事件。
本申请实施例中,可以预先训练用于事件识别的事件识别模型,并将该事件识别模型配置在电子设备本地。这样,电子设备在根据待清洗数据的事件特征识别待清洗数据对应的事件时,可以将待清洗数据的事件特征输入到预先训练的事件识别模型中进行处理,得到该事件识别模型输出的该待清洗数据所对应的事件。
请结合参照图4和图5,图4为本申请实施例提供的数据清洗方法的另一流程示意图,图5为该数据清洗方法的应用场景示意图,该数据清洗方法可以应用于电子设备,该数据清洗方法的流程可以包括:
在201中,电子设备定义多个不同的用户主体,以及定义多个不同的事件,得到多个预定义事件。
本申请实施例中,电子设备预先定义多个不同的用户主体,以及定义多个不同的事件,得到多个预定义事件。其中,用户主体可以为具有电子设备使用权限的任一用户,比如电子设备的机主,机主授权能够使用电子设备的其它用户等;事件可以为一次运动轨迹记录、一个时间段内的电量消耗记录等。
在202中,电子设备获取电子设备的传感器采集的多个传感器数据,并将传感器数据作为待清洗数据构建待清洗数据集合。
本领域普通技术人员可以理解的是,电子设备为了能够感知其自身所处的环境以及自身的运动等,通常配置有多个不同类型的传感器,比如用于感知自身所处位置的位置传感器(如GPS传感器、北斗传感器等)、用于感知自身运动的加速度传感器、陀螺仪等、以及用于感知自身所处环境的光线传感器、声音传感器等。
然而,这些传感器采集的到的传感器数据中存在大量冗余的数据,也即是针对同一用户主体、同一事件交叉重复的数据,这就使得电子设备需要对这些数据进行清洗,来减轻电子设备的数据存储负担,以及提升后续数据分析工作的效率。因此,在本申请实施例中,电子设备在获取需要进行数据清洗的待清洗数据集合时,可以获取自身的传感器所采集的多个传感器数据,将传感器数据作为待清洗数据构建待清洗数据集合,以对其进行数据清洗。
在203中,对于待清洗数据集合中的各待清洗数据,电子设备获取待清洗数据对应的用户描述信息集合,将待清洗数据的用户描述信息集合输入预先训练的多通道神经网络模型,得到多通道神经网络模型输出的待清洗数据的用户特征,根据待清洗数据对应的用户特征建立用户画像,并根据待清洗数据对应的用户画像识别其对应的用户主体。
其中,对于待清洗数据集合中的各待清洗数据,电子设备对其对应的用户主体进行识别。以待清洗数据集合中的任一待清洗数据为例,电子设备首先获取到该待清洗数据所对应的用户描述信息集合,该用户描述信息集合由多个不同维度的用户描述信息构成。其中,用户描述信息用于描述用户行为,比如,描述用户使用了哪些应用程序的描述信息、描述用户在哪些时间段使用电子设备的描述信息、描述用户搜索了哪些内容的描述信息以及描述用户点击了哪些内容的描述信息等。
应当说明的是,在本申请实施例中,还采用机器学习算法预先训练有多通道神经网络模型,该多通道神经网络模型应用对不同维度的用户描述信息进行融合、表征,输出对应的用户特征。由此,电子设备在获取到待清洗数据对应的用户描述信息集合之后,即可将待清洗数据的用户描述信息集合输入到预先训练的多通道神经网络模型中进行处理,得到多通道神经网络模型输出的待清洗数据的用户特征。比如,多通道神经网络模型输出的待清洗数据对应的用户特征S=(s1,s2,s3,……,sM),其中包括M个不同维度的用户特征,包括但不限于应用程序使用维度(如使用了哪些应用程序的特征)、电子设备使用维度(在哪些时间段使用电子设备的特征),应用程序操作维度(如搜索哪些内容、点击哪些内容等特征)等等。
电子设备在获取到待清洗数据对应的用户特征之后,采用用户画像技术建立对应的用户画像。应当说明的是,在本申请实施例中并不限制采用何种用户画像技术来建立待清洗数据所对应的用户画像,可由本领域普通技术人员根据经验选取合适的用户画像技术。
本领域普通技术人员可以理解的是,用户画像也即是抽象出的一个标签化的用户模型,这样,电子设备在根据待清洗数据对应的用户特征建立用户画像之后,即可根据待清洗数据所对应的用户画像来识别其对应的用户主体。
如上所述,电子设备可以识别到待清洗数据集合中各待清洗数据所对应的用户主体。
在204中,对于待清洗数据集合中的各待清洗数据,电子设备获取待清洗数据对应的事件特征,获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度,并将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。
其中,对于待清洗数据集合中的各待清洗数据,电子设备对其对应的事件进行识别。以待清洗数据集合中的任一待清洗数据为例,电子设备首先获取到该待清洗数据所对应的事件特征。比如,对于一待清洗数据,电子设备可以直接从该待清洗数据的属性信息中提取出该待清洗数据的事件特征E=(e1,e2,e3,……eN),其中包括N个不同维度的事件特征,包括但不限于时间维度、空间维度等。
电子设备在获取到待清洗数据对应的事件特征之后,获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度,并将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。其中,本申请实施例对于预设相似度的取值不做具体限制,可由本领域普通技术人员根据经验取合适值。
比如,假设预设相似度被配置为85%,若获取到待清洗数据的事件特征与预定义事件A的事件特征的相似度为40%、获取到待清洗数据的事件特征与预定义事件B的事件特征的相似度为50%、获取到待清洗数据的事件特征与预定义事件C的事件特征的相似度为70%、获取到待清洗数据的事件特征与预定义事件D的事件特征的相似度为86,可以看出,预定义事件D的事件特征与待清洗数据的事件特征之间的相似度达到预设相似度(85%),此时,电子设备将预定义事件D作为待清洗数据所对应的事件。
作为一种可选的实施方式,电子设备在获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度时,对于任一预定义事件,电子设备可以获取待清洗数据的事件特征与该预定义事件的事件特征之间的特征距离,并将获取到的特征距离作为待清洗数据的事件特征与该预定义事件的事件特征之间的相似度。其中,对于选取何种特征距离来衡量两个事件特征之间的相似度,可由本领域普通技术人员根据实际需要进行选取,包括但不限于欧氏距离、曼哈顿距离、切比雪夫距离以及余弦距离等。
此外,若不存在相似度达到预设相似度的预定义事件,则电子设备将多个预定义事件中对应相似度最高的预定义事件作为待清洗数据所对应的事件。
此外,应当说明的是,不同预定义事件的事件特征之间的相似度均小于前述预设相似度。
此外,应当说明的是,在本申请实施例中,电子设备执行203和204的顺序不受序号影响,可以是执行完成203之后再执行204,也可以是执行完成204之后在执行203,还可以是同时执行203和204。
在205中,电子设备对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
本申请实施例中,电子设备在识别到待清洗数据集合中各待清洗数据对应的用户主体以及事件之后,根据各待清洗数据所对应的用户主体以及事件,对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
比如,请参照图3,将电子设备获取到待清洗数据集合中包括3个待清洗数据,分别为待清洗数据A、待清洗数据B以及待清洗数据C,且电子设备识别到待清洗数据A所对应的用户主体为用户主体A、所对应的事件为事件A,识别到待清洗数据B所对应的用户主体为用户主体A、所对应的事件为事件B,识别到待清洗数据C所对应的用户主体为用户主体A、所对应的事件为事件A。可以看出,其中待清洗数据A和待清洗数据C的用户主体和事件均重复,也即是待清洗数据A和待清洗数据C互为冗余数据,此时,电子设备对待清洗数据集合进行去重处理,可以删除待清洗数据C而保留待清洗数据A,这样得到的、去重后的待清洗数据集合将包括待清洗数据A和待清洗数据B,如图3所示。此外,电子设备还可以删除待清洗数据A而保留待清洗数据C,这样得到的、去重后的待清洗数据集合将包括待清洗数据B和待清洗数据C。
请参照图6,图6为本申请实施例提供的数据清洗装置的结构示意图。该数据清洗装置可以应用于电子设备。数据清洗装置可以包括:数据获取模块401、主体识别模块402、事件识别模块403以及数据清洗模块404。
数据获取模块401,用于获取需要进行数据清洗的待清洗数据集合,待清洗数据集合包括多个待清洗数据;
主体识别模块402,用于识别待清洗数据集合中各待清洗数据对应的用户主体;
事件识别模块403,用于识别待清洗数据集合中各待清洗数据对应的事件;
数据清洗模块404,用于对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
在一实施例中,在识别待清洗数据集合中各待清洗数据对应的用户主体时,主体识别模块402可以用于:
获取待清洗数据对应的用户特征;
根据待清洗数据对应的用户特征建立用户画像;
根据待清洗数据对应的用户画像识别其对应的用户主体。
在一实施例中,在获取待清洗数据对应的用户特征时,主体识别模块402可以用于:
获取待清洗数据对应的用户描述信息集合,用户描述信息集合包括多个不同维度的用户描述信息;
将待清洗数据的用户描述信息集合输入预先训练的多通道神经网络模型,得到多通道神经网络模型输出的待清洗数据的用户特征。
在一实施例中,在识别待清洗数据集合中各待清洗数据对应的事件时,事件识别模块403可以用于:
获取待清洗数据对应的事件特征;
根据待清洗数据的事件特征识别待清洗数据对应的事件。
在一实施例中,在根据待清洗数据的事件特征识别待清洗数据对应的事件时,事件识别模块403可以用于:
获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度;
将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。
在一实施例中,在获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度时,事件识别模块403可以用于:
获取待清洗数据的事件特征与预定义事件的事件特征之间的特征距离;
将获取到的特征距离作为待清洗数据的事件特征与预定义事件的事件特征之间的相似度。
在一实施例中,在根据待清洗数据的事件特征识别待清洗数据对应的事件时,事件识别模块403可以用于:
根据待清洗数据的事件特征以及预先训练的事件识别模型,识别待清洗数据对应的事件。
在一实施例中,在获取需要进行数据清洗的待清洗数据集合时,数据获取模块401:
获取电子设备的传感器采集的多个传感器数据;
将传感器数据作为待清洗数据构建待清洗数据集合。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在电子设备上执行时,使得电子设备执行如本申请实施例提供的数据清洗方法中的步骤,比如,获取需要进行数据清洗的待清洗数据集合,待清洗数据集合包括多个待清洗数据;识别待清洗数据集合中各待清洗数据对应的用户主体;识别待清洗数据集合中各待清洗数据对应的事件;对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
本申请实施例还提供一种电子设备,包括存储器,处理器,处理器通过调用存储器中存储的计算机程序,执行本申请实施例提供的数据清洗方法中的步骤。
请参照图7,图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括存储器601以及处理器602。本领域普通技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器601可用于存储计算机程序和数据。存储器601存储的计算机程序中包含有可执行代码。计算机程序可以组成各种功能模块。
处理器602是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器601内的计算机程序,以及调用存储在存储器601内的数据,从而实现各种功能。
在本申请实施例中,电子设备中的处理器602会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器601中,并由处理器602运行,从而执行:
获取需要进行数据清洗的待清洗数据集合,待清洗数据集合包括多个待清洗数据;
识别待清洗数据集合中各待清洗数据对应的用户主体;
识别待清洗数据集合中各待清洗数据对应的事件;
对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
请参照图8,图8为本申请实施例提供的电子设备的另一结构示意图,与图7所示电子设备的区别在于,电子设备还包括输入单元603和输出单元604等组件。
其中,输入单元603可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。
输出单元604可用于输出由用户输入的信息或提供给用户的信息,如扬声器、屏幕等。
在本申请实施例中,电子设备中的处理器602会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器601中,并由处理器602运行,从而执行:
获取需要进行数据清洗的待清洗数据集合,待清洗数据集合包括多个待清洗数据;
识别待清洗数据集合中各待清洗数据对应的用户主体;
识别待清洗数据集合中各待清洗数据对应的事件;
对待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
在一实施例中,在识别待清洗数据集合中各待清洗数据对应的用户主体时,处理器602可以执行:
获取待清洗数据对应的用户特征;
根据待清洗数据对应的用户特征建立用户画像;
根据待清洗数据对应的用户画像识别其对应的用户主体。
在一实施例中,在获取待清洗数据对应的用户特征时,处理器602可以执行:
获取待清洗数据对应的用户描述信息集合,用户描述信息集合包括多个不同维度的用户描述信息;
将待清洗数据的用户描述信息集合输入预先训练的多通道神经网络模型,得到多通道神经网络模型输出的待清洗数据的用户特征。
在一实施例中,在识别待清洗数据集合中各待清洗数据对应的事件时,处理器602可以执行:
获取待清洗数据对应的事件特征;
根据待清洗数据的事件特征识别待清洗数据对应的事件。
在一实施例中,在根据待清洗数据的事件特征识别待清洗数据对应的事件时,处理器602可以执行:
获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度;
将相似度达到预设相似度的预定义事件作为待清洗数据所对应的事件。
在一实施例中,在获取待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度时,处理器602可以执行:
获取待清洗数据的事件特征与预定义事件的事件特征之间的特征距离;
将获取到的特征距离作为待清洗数据的事件特征与预定义事件的事件特征之间的相似度。
在一实施例中,在根据待清洗数据的事件特征识别待清洗数据对应的事件时,处理器602还可以执行:
根据待清洗数据的事件特征以及预先训练的事件识别模型,识别待清洗数据对应的事件。
在一实施例中,在获取需要进行数据清洗的待清洗数据集合时,处理器602可以执行:
获取电子设备的传感器采集的多个传感器数据;
将传感器数据作为待清洗数据构建待清洗数据集合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对数据清洗方法的详细描述,此处不再赘述。
本申请实施例提供的数据清洗装置/电子设备与上文实施例中的数据清洗方法属于同一构思,在数据清洗装置/电子设备上可以运行数据清洗方法实施例中提供的任一方法,其具体实现过程详见数据清洗方法实施例,此处不再赘述。
需要说明的是,对本申请实施例数据清洗方法而言,本领域普通技术人员可以理解实现本申请实施例数据清洗方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如数据清洗方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)等。
对本申请实施例的数据清洗装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种数据清洗方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据清洗方法,应用于电子设备,其特征在于,包括:
获取需要进行数据清洗的待清洗数据集合,所述待清洗数据集合包括多个待清洗数据;
识别所述待清洗数据集合中各待清洗数据对应的用户主体;
识别所述待清洗数据集合中各待清洗数据对应的事件;
对所述待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述识别所述待清洗数据集合中各待清洗数据对应的用户主体,包括:
获取所述待清洗数据对应的用户特征;
根据所述待清洗数据对应的用户特征建立用户画像;
根据所述待清洗数据对应的用户画像识别其对应的用户主体。
3.根据权利要求2所述的数据清洗方法,其特征在于,所述获取所述待清洗数据对应的用户特征,包括:
获取所述待清洗数据对应的用户描述信息集合,所述用户描述信息集合包括多个不同维度的用户描述信息;
将所述用户描述信息集合输入预先训练的多通道神经网络模型,得到所述多通道神经网络模型输出的所述待清洗数据的用户特征。
4.根据权利要求1所述的数据清洗方法,其特征在于,所述识别所述待清洗数据集合中各待清洗数据对应的事件,包括:
获取所述待清洗数据对应的事件特征;
根据所述待清洗数据的事件特征识别所述待清洗数据对应的事件。
5.根据权利要求4所述的数据清洗方法,其特征在于,所述根据所述待清洗数据的事件特征识别所述待清洗数据对应的事件包括:
获取所述待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度;
将相似度达到预设相似度的预定义事件作为所述待清洗数据所对应的事件。
6.根据权利要求5所述的数据清洗方法,其特征在于,所述获取所述待清洗数据的事件特征与多个预定义事件的事件特征之间的相似度,包括:
获取所述待清洗数据的事件特征与所述预定义事件的事件特征之间的特征距离;
将所述特征距离作为所述待清洗数据的事件特征与所述预定义事件的事件特征之间的相似度。
7.根据权利要求4所述的数据清洗方法,其特征在于,所述根据所述待清洗数据的事件特征识别所述待清洗数据对应的事件,包括:
根据所述待清洗数据的事件特征以及预先训练的事件识别模型,识别所述待清洗数据对应的事件。
8.一种数据清洗装置,应用于电子设备,其特征在于,包括:
数据获取模块,用于获取需要进行数据清洗的待清洗数据集合,所述待清洗数据集合包括多个待清洗数据;
主体识别模块,用于识别所述待清洗数据集合中各待清洗数据对应的用户主体;
事件识别模块,用于识别所述待清洗数据集合中各待清洗数据对应的事件;
数据清洗模块,用于对所述待清洗数据集合中用户主体和事件均重复的待清洗数据进行去重处理,得到去重后的待清洗数据集合。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的数据清洗方法。
10.一种电子设备,包括处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的数据清洗方法。
CN201910282140.5A 2019-04-09 2019-04-09 数据清洗方法、装置、存储介质及电子设备 Pending CN111797077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910282140.5A CN111797077A (zh) 2019-04-09 2019-04-09 数据清洗方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910282140.5A CN111797077A (zh) 2019-04-09 2019-04-09 数据清洗方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN111797077A true CN111797077A (zh) 2020-10-20

Family

ID=72805366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910282140.5A Pending CN111797077A (zh) 2019-04-09 2019-04-09 数据清洗方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111797077A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171153A (zh) * 2023-09-11 2023-12-05 北京三维天地科技股份有限公司 一种支持自定义清洗流程的可视化数据清洗方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171153A (zh) * 2023-09-11 2023-12-05 北京三维天地科技股份有限公司 一种支持自定义清洗流程的可视化数据清洗方法及系统

Similar Documents

Publication Publication Date Title
CN107169454B (zh) 一种人脸图像年龄估算方法、装置及其终端设备
CN107784282B (zh) 对象属性的识别方法、装置及系统
CN111797078A (zh) 数据清洗方法、模型训练方法、装置、存储介质及设备
CN111798018A (zh) 行为预测方法、装置、存储介质及电子设备
CN111797288A (zh) 数据筛选方法、装置、存储介质及电子设备
CN111797861A (zh) 信息处理方法、装置、存储介质及电子设备
CN111798259A (zh) 应用推荐方法、装置、存储介质及电子设备
CN111798367A (zh) 图像处理方法、装置、存储介质及电子设备
CN111797148A (zh) 数据处理方法、装置、存储介质及电子设备
CN111797080A (zh) 模型训练方法、数据回收方法、装置、存储介质及设备
CN111797077A (zh) 数据清洗方法、装置、存储介质及电子设备
CN111797849A (zh) 用户活动识别方法、装置、存储介质及电子设备
CN111797986A (zh) 数据处理方法、装置、存储介质及电子设备
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
CN111797867A (zh) 系统资源优化方法、装置、存储介质及电子设备
CN111797874A (zh) 行为预测方法、装置、存储介质及电子设备
CN111797075A (zh) 数据回收方法、装置、存储介质及电子设备
CN111796663B (zh) 场景识别模型更新方法、装置、存储介质及电子设备
CN111797299A (zh) 模型训练方法、网页分类方法、装置、存储介质及设备
CN107871019B (zh) 人车关联搜索方法及装置
CN111797656B (zh) 人脸关键点检测方法、装置、存储介质及电子设备
CN111796992B (zh) 行为偏好确定方法、装置、存储介质及电子设备
CN111796916A (zh) 数据分发方法、装置、存储介质及服务器
CN111796924A (zh) 服务处理方法、装置、存储介质及电子设备
CN111797303A (zh) 信息处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination