CN111797877B - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111797877B CN111797877B CN201910282463.4A CN201910282463A CN111797877B CN 111797877 B CN111797877 B CN 111797877B CN 201910282463 A CN201910282463 A CN 201910282463A CN 111797877 B CN111797877 B CN 111797877B
- Authority
- CN
- China
- Prior art keywords
- data
- panoramic
- user
- target user
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000001502 supplementing effect Effects 0.000 claims abstract description 49
- 230000009469 supplementation Effects 0.000 claims abstract description 21
- 239000013589 supplement Substances 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 238000012163 sequencing technique Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/12—Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、存储介质及电子设备,其中,本申请实施例获取目标用户当前的全景数据;根据全景数据生成全景特征;计算全景特征的信息量;若信息量小于预设阈值,则确定目标用户所在的用户区域,根据用户区域中其他用户的全景数据补充目标用户的全景数据;将补充后的全景数据作为用户当前的全景数据,并返回执行根据全景数据生成全景特征的步骤;若信息量大于或等于预设阈值,则完成对目标用户的全景数据的补充。本方案协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
随着手机等智能终端的发展,为了更好的响应用户指令或者为用户提供更加智能的服务,需要获取用户的全景偏好和行为习惯。但是对于类似于手机这样的移动终端,使用场景多变,容易出现部分用户数据量不足,使用时间短等情形,造成目标用户存在数据量少和信息不全的问题,难以提取出能够准确刻画全景类别的有效特征。
发明内容
本申请实施例提供了一种数据处理方法、装置、存储介质及电子设备,能够对用户的全景数据进行补充,以提高识别用户的全景类别的准确度。
第一方面,本申请实施例了提供了的一种数据处理方法,包括:
获取目标用户当前的全景数据;
根据所述全景数据生成全景特征;
计算所述全景特征的信息量;
若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据;
将补充后的全景数据作为用户当前的全景数据,并返回执行根据所述全景数据生成全景特征的步骤;
若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
第二方面,本申请实施例了提供了的一种数据处理装置,包括:
数据获取模块,用于获取目标用户当前的全景数据;
特征提取模块,用于根据所述全景数据生成全景特征;
信息量计算模块,用于计算所述全景特征的信息量;
数据补充模块,用于若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据;
特征提取模块还用于,将补充后的全景数据作为当前的全景数据,并根据所述全景数据生成全景特征;
数据补充模块还用于:若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的数据处理方法。
第四方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的数据处理方法;
本申请实施例提供的技术方案,获取目标用户当前的全景数据,从全景数据中提取出全景特征,计算全景特征的信息熵,当信息熵小于预设阈值时,确定目标用户所述的区域,根据该区域中其他用户的全景数据补充目标用户的全景数据,然后,将补充的全景数据作为当前的全景数据再次提取全景数据并计算信息熵,若信息熵仍然小于预设阈值,则再次根据用户区域中其他用户的全景数据对目标用户的全景数据进行补充,重复执行上述步骤,直至计算得到的信息上大于或等于预设阈值。本方案通过对目标用户的全景特征的信息量进行计算,以评估出目标用户所拥有的数据是否足以支撑全景类别的准确识别,当信息熵小于预设阈值时,则认为不足以支撑,此时,协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的全景感知架构示意图。
图2为本申请实施例提供的数据处理方法的第一种流程示意图。
图3为本申请实施例提供的数据处理方法的第二种流程示意图。
图4为本申请实施例提供的数据处理装置的结构示意图。
图5为本申请实施例提供的电子设备的第一种结构示意图。
图6为本申请实施例提供的电子设备的第二种结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1,图1为本申请实施例提供的数据处理方法的全景感知架构示意图。所述数据处理方法应用于电子设备。所述电子设备中设置有全景感知架构。所述全景感知架构为电子设备中用于实现所述数据处理方法的硬件和软件的集成。
其中,全景感知架构包括信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
信息感知层用于获取电子设备自身的信息或者外部环境中的信息。所述信息感知层可以包括多个传感器。例如,所述信息感知层包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。
其中,距离传感器可以用于检测电子设备与外部物体之间的距离。磁场传感器可以用于检测电子设备所处环境的磁场信息。光线传感器可以用于检测电子设备所处环境的光线信息。加速度传感器可以用于检测电子设备的加速度数据。指纹传感器可以用于采集用户的指纹信息。霍尔传感器是根据霍尔效应制作的一种磁场传感器,可以用于实现电子设备的自动控制。位置传感器可以用于检测电子设备当前所处的地理位置。陀螺仪可以用于检测电子设备在各个方向上的角速度。惯性传感器可以用于检测电子设备的运动数据。姿态感应器可以用于感应电子设备的姿态信息。气压计可以用于检测电子设备所处环境的气压。心率传感器可以用于检测用户的心率信息。
数据处理层用于对信息感知层获取到的数据进行处理。例如,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
其中,数据清理是指对信息感知层获取到的大量数据进行清理,以剔除无效数据和重复数据。数据集成是指将信息感知层获取到的多个单维度数据集成到一个更高或者更抽象的维度,以对多个单维度的数据进行综合处理。数据变换是指对信息感知层获取到的数据进行数据类型的转换或者格式的转换等,以使变换后的数据满足处理的需求。数据归约是指在尽可能保持数据原貌的前提下,最大限度的精简数据量。
特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取所述数据中包括的特征。提取到的特征可以反映出电子设备自身的状态或者用户的状态或者电子设备所处环境的环境状态等。
其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户的状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
智能服务层用于根据情景建模层所构建的模型为用户提供智能化的服务。例如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行系统智能优化,还可以为用户提供个性化智能服务。
此外,全景感知架构中还可以包括多种算法,每一种算法都可以用于对数据进行分析处理,所述多种算法可以构成算法库。例如,所述算法库中可以包括马尔科夫算法、隐形狄利克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络、循环神经网络等算法。
基于上述全景感知构架,电子设备通过信息感知层和/或者其他方式采集目标用户的全景数据。数据处理层对全景数据进行处理,比如,对获取的全景数据进行数据清理、数据集成等。接下来,特征抽取层按照本申请实施例提供的特征提取方案对全景数据进行处理,例如,获取目标用户当前的全景数据,从全景数据中提取出全景特征,计算全景特征的信息熵,当信息熵小于预设阈值时,确定目标用户所述的区域,根据该区域中其他用户的全景数据补充目标用户的全景数据,然后,将补充的全景数据作为当前的全景数据再次提取全景数据并计算信息熵,若信息熵仍然小于预设阈值,则再次根据用户区域中其他用户的全景数据对目标用户的全景数据进行补充,重复执行上述步骤,直至计算得到的信息上大于或等于预设阈值。本方案通过对目标用户的全景特征的信息量进行计算,以评估出目标用户所拥有的数据是否足以支撑全景类别的准确识别,当信息熵小于预设阈值时,则认为不足以支撑,此时,协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
本申请实施例提供一种数据处理方法,该数据处理方法的执行主体可以是本申请实施例提供的数据处理装置,或者集成了该数据处理装置的电子设备,其中该数据处理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是服务器。
请参照图2,图2为本申请实施例提供的数据处理方法的第一种流程示意图。本申请实施例提供的数据处理方法的具体流程可以如下:
步骤101、获取目标用户当前的全景数据。
本实施例中的全景数据可以通过用户终端采集,其中用户终端为智能手机、平板电脑、掌上电脑等。例如,用户终端与服务器之间建立通讯连接,用户终端定时采集终端在预设时间间隔内记录的全景数据发送至服务器。比如,用户终端每间隔1小时采集全景数据并发送至服务器。其中,全景数据包括但不限于以下几类:环境数据、用户行为数据以及终端运行数据。每一类数据中包含多个数据项,全景数据即为全部数据项的合集。
其中,环境数据包括时间、地点、空气质量、天气、温度、湿度、声音、光照等数据,其中部分数据可以通过用户终端上对应的传感器进行采集,如时间、地点等,可以在获取用户终端当前的时间和地点后,通过网络获取另外一部分数据。用户行为数据包括用户启动应用程序的历史记录,用户听歌历史、用户视频观看记录、用户通话行为、用户打游戏记录等数据,通过用户终端对相关应用程序的使用记录进行采集。终端运行数据包括用户终端在各时间区间内所处的运行模式,其中运行模式包括游戏模式、娱乐模式、影音模式等,可以根据当前运行的应用程序的类型确定终端所处的运行模式,当前运行的应用程序的类型可以直接从应用程序安装包的分类信息中获得;或者,终端运行数据还可以包括终端的剩余电量、显示模式、网络状态、熄屏/锁屏状态,以及终端传感器,如加速度传感器、磁力计数器等采集到的数据等。
服务器按照上述方式可以获取大量的用户的全景数据,存储至用户数据库。其中,在存储全景数据时,可以按照时间维度进行存储。例如,按照记录的环境数据对应的时间、用户行为数据对应的行为发生时间、终端运行数据对应的时间等,对这些信息进行存储。其中,本申请实施例中,使用MySQL来存储全景数据,MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,可以增加数据读写速度。
步骤102、根据所述全景数据生成全景特征。
服务器在获取到目标用户的全景数据后,从全景数据中提取全景特征。
在一些实施例中,根据所述全景数据生成全景特征的步骤包括:获取目标用户当前的全景数据,并确定所述全景数据的数据类型;根据与所述数据类型匹配的特征提取方式根据所述全景数据生成全景特征。
例如,将全部全景数据分为数字类、文本类、音频类、传感器信号类。对于数字类数据,使用基于统计的特征提取方式来提取全景特征,例如,对于用户通话行为这个数据项,可以提取24小时内的通话总时长、通话时长平均值、最长通话时长、最短通话时长等作为特征。对于文本类数据,可以基于关键词提取算法提取关键词作为特征;对于音频类数据,可以基于频域特征提取方法,抽取出语音数据中的频率、幅度、相位值、周期等数据作为特征。对于传感器信号类数据,可以使用混合特征提取方法,例如,对于采集到的磁力计数据、加速度传感器数据和角速度数据,则可以综合这些数据生成终端的姿态角信息,将这个姿态角作为一种特征。
对于服务器来说,可以根据数据类型预先配置好特征提取规则,在获取到目标用户的全景数据后,确定全景数据的数据类型,根据数据类型对应的特征提取规则从全景数据中提取出全景特征。
步骤103、计算所述全景特征的信息量。
由于全景特征可以用来刻画用户所处的全景类别,因此,需要提取到的全景特征中有足够的信息量来支撑。接下来,通过计算全景特征的信息量来衡量全景特征中是否有足够的信息量来支撑对用户全景类别的刻画。其中,信息熵能够用来衡量信息的价值,本实施例中用信息熵来衡量全景特征中包含的信息量。信息熵越大,则说明全景特征中包含的信息量越大,信息熵越小,则说明全景特征中包含的信息量越小。
在提取到全景特征后,计算全景特征的信息熵Itarget。
其中,计算所述全景特征的信息熵的步骤可以包括:确定所述全景特征包含的特征项,其中,所述全景特征包括多个特征项,一个特征项对应多个数据分段;根据所述特征项在对应的各数据分段上概率,计算所述数据项的信息熵;将多个特征项的信息熵均值作为所述全景数据的信息熵。具体地,可以按照如下公式计算:
其中,n表示步骤102中获取到的全景特征中的特征项的个数,Ii表示第i个特征的信息熵。m表示第i个特征项的数据分段数量,p(fij)表示第i个特征项在其第j个数据分段上的概率大小。此处的概率数据可以由服务器通过大数据统计得到。例如,服务器采集大量的用户的全景数据,提取全景特征,其中全景数据中包含多个数据项,经过特征提取后,得到的全景特征中包含有多个特征项,一个特征项可以对应于一个或者多个数据项,多个特征项也可以对应于一个数据项。服务器对各个特征项进行统计,获取每一特征项中,特征可能位于每个数据分段上的概率。
步骤104、若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据。
预先设置阈值Igiven,该预设阈值可以根据经验设置,其中,预设阈值越大,则目标用户的全景数据需要补充的概率越高,需要补充的全景数据也可能越多。若计算得到的目标用户的信息熵Itarget小于预设阈值Igiven,则采用其他用户的全景数据对目标用户的全景数据进行补充。首先,确定目标用户所在的用户区域。
在一些实施例中,以地理位置确定用户的用户区域。确定目标用户所在的用户区域的步骤可以包括:获取所述目标用户的位置信息;根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域。
即根据目标用户的全景数据中的定位信息,确定目标用户所在的位置坐标,假设预设的用户距离为1km,则将以目标用户所在的位置坐标为中心,以1km为半径的区域作为用户区域。可以理解的是,服务器可以根据步骤101中的方式获取到大量的用户的全景数据。根据全景数据中的位置搜索位于用户区域中的除目标用户之外的其他用户,并获取这些用户的全景数据。
由于这些用户与目标用户之间的地理位置非常接近,因此,环境数据以及所处的情境状态也会比较接近,因此,可以使用这些用户的全景数据对目标用户的全景数据进行补充,以提高目标用户的全景数据的信息量。接下来,使用其他用户的全景数据补充目标用户的全景数据。
在一些实施例中,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据的步骤可以包括:确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序;根据所述相似度排序,获取相似度最高的若干个其他用户的全景数据,补充所述目标用户的全景数据。
由于在确定的用户区域中,可能包含有多个其他用户,此处需要对这些用户进行筛选,尽可能选择与目标用户之间的相似度高的用户,来对目标用户的全景数据进行补充。
其中,在一些实施例中,确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序的步骤,包括:根据用户的全景数据,计算用户区域中其他用户与所述目标用户之间的欧氏距离;根据所述欧氏距离确定其他用户与所述目标用户之间的相似度,并生成用户相似度排序。
该方案中,可以采用欧氏距离来衡量其他用户与目标用户之间的相似度,其中,欧氏距离越大,相似度越低;欧氏距离越小,相似度越高。按照与目标用户之间的欧氏距离由小至大的顺序,对其他用户进行排序,将该排序作为用户相似度排序,其中,该排序按照用户相似度由高至低的顺序排序。根据该排序选择相似度最高的一个或者多个其他用户,获取这些用户的全景数据,使用这些数据补充目标用户的全景数据。或者,在其他实施例中,可以采用计算皮尔逊相关系数确定其他用户与目标用户之间的相似度。
或者,在其他实施例中,还可以基于对其他用户的全景数据进行质量评估的方式选择参考用户。例如,利用统计的方式对每个其他用户的全景数据的质量进行评估,然后从中选择数据质量评分最高的若干个用户的用户数据补充到目标用户的全景数据中。比如,可通过对数据质量进行排序,选择排序靠前的若干个其他用户的全景数据进行补充,通过这样的方式,可以保证填充的数据质量较高。
其中,关于数据补充方式,可以从时间和特征项的维度来对缺失的全景数据进行补充。例如,在一些实施例中,全景数据包括多个数据项,根据所述参考用户的全景数据,对所述目标用户的全景数据进行补充的步骤可以包括:
确定所述目标用户的全景数据中存在数据缺失的时间区间,并确定缺失的数据项;从所述参考用户的全景数据中,查找符合所述时间区间和所述数据项的数据;按照所述时间区间,将查找的数据填充至所述目标用户的全景数据中。
即确定用户的全景数据中存在数据缺失的时间区间以及缺失的数据项,进而从筛选出的参考用户中选择对应的数据,补充到目标用户的全景数据中。
步骤105、将补充后的全景数据作为用户当前的全景数据,并返回执行步骤102。
步骤106、若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
在完成上述的数据填充后,将补充后的全景数据作为用户当前的全景数据,返回执行步骤102,即对补充后的数据,再次提取全景特征,并计算全景特征的信息熵,若计算得到的信息熵大于或者等于预设阈值,则完成对目标用户的全景数据的补充,则计算得到的信息熵仍然小于预设阈值,则继续执行步骤104。如此循环往复,直至经过补充后,计算得到的信息熵大于或等于预设阈值,则完成对所述目标用户的全景数据的补充。
可以理解的是,若未经过补充的全景数据,计算得到的信息熵大于或等于预设阈值,则说明该全景数据足以支撑全景类别的准确识别,则不存在背景技术中的缺陷,因此,无需对数据补充。
参照图3所示,图3为图3为本申请实施例提供的数据处理方法的第二种流程示意图。可选地,在一些实施例中,步骤104、根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据的步骤之后,还包括:
步骤107、更新所述目标用户的数据补充次数;
步骤104、若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据,包括:
步骤1041、若所述信息量小于预设阈值,则确定所述目标用户当前的数据补充次数,根据预设的数据补充次数与用户距离之间的映射关系,确定当前的数据补充次数对应的用户距离,其中,数据补充次数与用户距离成正比。
步骤1042、根据确定的用户距离和所述位置信息确定所述目标用户所在的用户区域。
步骤1043、根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据。
若从经过补充之后的全景数据中提取的全景特征的信息熵仍然小于预设阈值,则在第二次确定目标用户所在的用户区域时,对用户区域进行扩大,即扩大查找相似用户的范围。例如,预先设置数据补充次数与用户距离之间的映射关系,并在每进行一次数据补充之后,对记录的数据补充次数进行更新,其中,数据补充次数的初始值为0。比如,预设的数据补充次数与用户距离之间的映射关系可以如下:(0,1km)、(1,2km)、(2,3km)……这样随着数据补充次数的增多,用户距离越来越大,即用户区域越来越大。通过这样的方式增加其他用户的搜索范围,可以更快地完成对目标用户的全景数据的补充。
由上可知,本申请实施例的数据处理方法,获取目标用户当前的全景数据,从全景数据中提取出全景特征,计算全景特征的信息熵,当信息熵小于预设阈值时,确定目标用户所述的区域,根据该区域中其他用户的全景数据补充目标用户的全景数据,然后,将补充的全景数据作为当前的全景数据再次提取全景数据并计算信息熵,若信息熵仍然小于预设阈值,则再次根据用户区域中其他用户的全景数据对目标用户的全景数据进行补充,重复执行上述步骤,直至计算得到的信息上大于或等于预设阈值。本方案通过对目标用户的全景特征的信息量进行计算,以评估出目标用户所拥有的数据是否足以支撑全景类别的准确识别,当信息熵小于预设阈值时,则认为不足以支撑,此时,协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
在一实施例中还提供了一种数据处理装置。请参阅图4,图4为本申请实施例提供的数据处理装置400的结构示意图。其中该数据处理装置400应用于电子设备,该数据处理装置400包括数据获取模块401、特征提取模块402、信息量计算模块403和数据补充模块404,如下:
数据获取模块401,用于获取目标用户当前的全景数据。
本实施例中的全景数据可以通过用户终端采集,其中用户终端为智能手机、平板电脑、掌上电脑等。例如,用户终端与服务器之间建立通讯连接,用户终端定时采集终端在预设时间间隔内记录的全景数据发送至服务器。比如,用户终端每间隔1小时采集全景数据并发送至服务器。其中,全景数据包括但不限于以下几类:环境数据、用户行为数据以及终端运行数据。每一类数据中包含多个数据项,全景数据即为全部数据项的合集。
其中,环境数据包括时间、地点、空气质量、天气、温度、湿度、声音、光照等数据,其中部分数据可以通过用户终端上对应的传感器进行采集,如时间、地点等,可以在获取用户终端当前的时间和地点后,通过网络获取另外一部分数据。用户行为数据包括用户启动应用程序的历史记录,用户听歌历史、用户视频观看记录、用户通话行为、用户打游戏记录等数据,通过用户终端对相关应用程序的使用记录进行采集。终端运行数据包括用户终端在各时间区间内所处的运行模式,其中运行模式包括游戏模式、娱乐模式、影音模式等,可以根据当前运行的应用程序的类型确定终端所处的运行模式,当前运行的应用程序的类型可以直接从应用程序安装包的分类信息中获得;或者,终端运行数据还可以包括终端的剩余电量、显示模式、网络状态、熄屏/锁屏状态,以及终端传感器,如加速度传感器、磁力计数器等采集到的数据等。
服务器按照上述方式可以获取大量的用户的全景数据,存储至用户数据库。其中,在存储全景数据时,可以按照时间维度进行存储。例如,按照记录的环境数据对应的时间、用户行为数据对应的行为发生时间、终端运行数据对应的时间等,对这些信息进行存储。其中,本申请实施例中,使用MySQL来存储全景数据,MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,可以增加数据读写速度。
特征提取模块402,用于根据所述全景数据生成全景特征。
服务器在获取到目标用户的全景数据后,从全景数据中提取全景特征。
在一些实施例中,根据所述全景数据生成全景特征的步骤包括:获取目标用户当前的全景数据,并确定所述全景数据的数据类型;根据与所述数据类型匹配的特征提取方式根据所述全景数据生成全景特征。
例如,将全部全景数据分为数字类、文本类、音频类、传感器信号类。对于数字类数据,使用基于统计的特征提取方式来提取全景特征,例如,对于用户通话行为这个数据项,可以提取24小时内的通话总时长、通话时长平均值、最长通话时长、最短通话时长等作为特征。对于文本类数据,可以基于关键词提取算法提取关键词作为特征;对于音频类数据,可以基于频域特征提取方法,抽取出语音数据中的频率、幅度、相位值、周期等数据作为特征。对于传感器信号类数据,可以使用混合特征提取方法,例如,对于采集到的磁力计数据、加速度传感器数据和角速度数据,则可以综合这些数据生成终端的姿态角信息,将这个姿态角作为一种特征。
对于服务器来说,可以根据数据类型预先配置好特征提取规则,在获取到目标用户的全景数据后,确定全景数据的数据类型,根据数据类型对应的特征提取规则从全景数据中提取出全景特征。
信息量计算模块403,用于计算所述全景特征的信息量。
由于全景特征可以用来刻画用户所处的全景类别,因此,需要提取到的全景特征中有足够的信息量来支撑。接下来,通过计算全景特征的信息量来衡量全景特征中是否有足够的信息量来支撑对用户全景类别的刻画。其中,信息熵能够用来衡量信息的价值,本实施例中用信息熵来衡量全景特征中包含的信息量。信息熵越大,则说明全景特征中包含的信息量越大,信息熵越小,则说明全景特征中包含的信息量越小。
在提取到全景特征后,计算全景特征的信息熵Itarget。
其中,信息量计算模块403还用于:确定所述全景特征包含的特征项,其中,所述全景特征包括多个特征项,一个特征项对应多个数据分段;根据所述特征项在对应的各数据分段上概率,计算所述数据项的信息熵;将多个特征项的信息熵均值作为所述全景数据的信息熵。具体地,可以按照如下公式计算:
其中,n表示步骤102中获取到的全景特征中的特征项的个数,Ii表示第i个特征的信息熵。m表示第i个特征项的数据分段数量,p(fij)表示第i个特征项在其第j个数据分段上的概率大小。此处的概率数据可以由服务器通过大数据统计得到。例如,服务器采集大量的用户的全景数据,提取全景特征,其中全景数据中包含多个数据项,经过特征提取后,得到的全景特征中包含有多个特征项,一个特征项可以对应于一个或者多个数据项,多个特征项也可以对应于一个数据项。服务器对各个特征项进行统计,获取每一特征项中,特征可能位于每个数据分段上的概率。
数据补充模块404,用于若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据。
预先设置阈值Igiven,该预设阈值可以根据经验设置,其中,预设阈值越大,则目标用户的全景数据需要补充的概率越高,需要补充的全景数据也可能越多。若计算得到的目标用户的信息熵Itarget小于预设阈值Igiven,则采用其他用户的全景数据对目标用户的全景数据进行补充。首先,确定目标用户所在的用户区域。
在一些实施例中,以地理位置确定用户的用户区域。数据补充模块404还用于:获取所述目标用户的位置信息;根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域。
即根据目标用户的全景数据中的定位信息,确定目标用户所在的位置坐标,假设预设的用户距离为1km,则将以目标用户所在的位置坐标为中心,以1km为半径的区域作为用户区域。可以理解的是,服务器可以根据步骤101中的方式获取到大量的用户的全景数据。根据全景数据中的位置搜索位于用户区域中的除目标用户之外的其他用户,并获取这些用户的全景数据。
由于这些用户与目标用户之间的地理位置非常接近,因此,环境数据以及所处的情境状态也会比较接近,因此,可以使用这些用户的全景数据对目标用户的全景数据进行补充,以提高目标用户的全景数据的信息量。接下来,使用其他用户的全景数据补充目标用户的全景数据。
在一些实施例中,数据补充模块404还用于:确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序;根据所述相似度排序,获取相似度最高的若干个其他用户的全景数据,补充所述目标用户的全景数据。
由于在确定的用户区域中,可能包含有多个其他用户,此处需要对这些用户进行筛选,尽可能选择与目标用户之间的相似度高的用户,来对目标用户的全景数据进行补充。
其中,在一些实施例中,确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序的步骤,包括:根据用户的全景数据,计算用户区域中其他用户与所述目标用户之间的欧氏距离;根据所述欧氏距离确定其他用户与所述目标用户之间的相似度,并生成用户相似度排序。
该方案中,可以采用欧氏距离来衡量其他用户与目标用户之间的相似度,其中,欧氏距离越大,相似度越低;欧氏距离越小,相似度越高。按照与目标用户之间的欧氏距离由小至大的顺序,对其他用户进行排序,将该排序作为用户相似度排序,其中,该排序按照用户相似度由高至低的顺序排序。根据该排序选择相似度最高的一个或者多个其他用户,获取这些用户的全景数据,使用这些数据补充目标用户的全景数据。或者,在其他实施例中,可以采用计算皮尔逊相关系数确定其他用户与目标用户之间的相似度。
或者,在其他实施例中,还可以基于对其他用户的全景数据进行质量评估的方式选择参考用户。例如,利用统计的方式对每个其他用户的全景数据的质量进行评估,然后从中选择数据质量评分最高的若干个用户的用户数据补充到目标用户的全景数据中。比如,可通过对数据质量进行排序,选择排序靠前的若干个其他用户的全景数据进行补充,通过这样的方式,可以保证填充的数据质量较高。
其中,关于数据补充方式,可以从时间和特征项的维度来对缺失的全景数据进行补充。例如,在一些实施例中,全景数据包括多个数据项,数据补充模块404还用于:确定所述目标用户的全景数据中存在数据缺失的时间区间,并确定缺失的数据项;从所述参考用户的全景数据中,查找符合所述时间区间和所述数据项的数据;按照所述时间区间,将查找的数据填充至所述目标用户的全景数据中。
即确定用户的全景数据中存在数据缺失的时间区间以及缺失的数据项,进而从筛选出的参考用户中选择对应的数据,补充到目标用户的全景数据中。
特征提取模块402还用于,将补充后的全景数据作为当前的全景数据,并根据所述全景数据生成全景特征.
数据补充模块404还用于:若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
在完成上述的数据填充后,将补充后的全景数据作为用户当前的全景数据,特征提取模块402根据所述全景数据生成全景特征,即对补充后的数据,再次提取全景特征,并计算全景特征的信息熵,若计算得到的信息熵大于或者等于预设阈值,则完成对目标用户的全景数据的补充,则计算得到的信息熵仍然小于预设阈值,则继续将补充后的全景数据作为当前的全景数据,并根据所述全景数据生成全景特征。如此循环往复,直至经过补充后,计算得到的信息熵大于或等于预设阈值,则完成对所述目标用户的全景数据的补充。
可以理解的是,若未经过补充的全景数据,计算得到的信息熵大于或等于预设阈值,则说明该全景数据足以支撑全景类别的准确识别,则不存在背景技术中的缺陷,因此,无需对数据补充。
可选地,在一些实施例中,数据处理装置400还包括:
次数统计模块,用于在数据补充模块根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据之后,更新所述目标用户的数据补充次数;
数据补充模块404包括:
位置获取单元,用于获取所述目标用户的位置信息;
距离确定单元,用于确定所述目标用户当前的数据补充次数,根据预设的数据补充次数与用户距离之间的映射关系,确定当前的数据补充次数对应的用户距离,其中,数据补充次数与用户距离成正比;
区域划分单元,用于根据确定的用户距离和所述位置信息确定所述目标用户所在的用户区域。
若从经过补充之后的全景数据中提取的全景特征的信息熵仍然小于预设阈值,则在第二次确定目标用户所在的用户区域时,对用户区域进行扩大,即扩大查找相似用户的范围。例如,预先设置数据补充次数与用户距离之间的映射关系,并在每进行一次数据补充之后,对记录的数据补充次数进行更新,其中,数据补充次数的初始值为0。比如,预设的数据补充次数与用户距离之间的映射关系可以如下:(0,1km)、(1,2km)、(2,3km)……这样随着数据补充次数的增多,用户距离越来越大,即用户区域越来越大。通过这样的方式增加其他用户的搜索范围,可以更快地完成对目标用户的全景数据的补充。
由上可知,本申请实施例的数据处理装置,获取目标用户当前的全景数据,从全景数据中提取出全景特征,计算全景特征的信息熵,当信息熵小于预设阈值时,确定目标用户所述的区域,根据该区域中其他用户的全景数据补充目标用户的全景数据,然后,将补充的全景数据作为当前的全景数据再次提取全景数据并计算信息熵,若信息熵仍然小于预设阈值,则再次根据用户区域中其他用户的全景数据对目标用户的全景数据进行补充,重复执行上述步骤,直至计算得到的信息上大于或等于预设阈值。本方案通过对目标用户的全景特征的信息量进行计算,以评估出目标用户所拥有的数据是否足以支撑全景类别的准确识别,当信息熵小于预设阈值时,则认为不足以支撑,此时,协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑等设备。如图5所示,图5为本申请实施例提供的电子设备的第一种结构示意图。电子设备300包括处理器301和存储器302。其中,处理器301与存储器302电性连接。
处理器301是电子设备300的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或调用存储在存储器302内的计算机程序,以及调用存储在存储器302内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备300中的处理器301会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的计算机程序,从而实现各种功能:
获取目标用户当前的全景数据;
根据所述全景数据生成全景特征;
计算所述全景特征的信息量;
若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据;
将补充后的全景数据作为用户当前的全景数据,并返回执行根据所述全景数据生成全景特征的步骤;
若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
在一些实施例中,在根据所述全景数据生成全景特征时,处理器301执行:
获取目标用户当前的全景数据,并确定所述全景数据的数据类型;
根据与所述数据类型匹配的特征提取方式根据所述全景数据生成全景特征。
在一些实施例中,在计算所述全景特征的信息量时,处理器301执行:
计算所述全景特征的信息熵,用所述信息熵表示所述信息量。
在一些实施例中,在计算所述全景特征的信息熵时,处理器301执行:
确定所述全景特征中包含的特征项,其中,所述全景特征包括多个特征项,一个特征项对应多个数据分段;
根据所述特征项在对应的各数据分段上概率,计算所述数据项的信息熵;
将多个特征项的信息熵均值作为所述全景数据的信息熵。
在一些实施例中,在确定目标用户所在的用户区域,处理器301执行:
获取所述目标用户的位置信息;
根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域。
在一些实施例中,在根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据之后,处理器301执行:
更新所述目标用户的数据补充次数;
根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域的步骤,包括:
确定所述目标用户当前的数据补充次数,根据预设的数据补充次数与用户距离之间的映射关系,确定当前的数据补充次数对应的用户距离,其中,数据补充次数与用户距离成正比;
根据确定的用户距离和所述位置信息确定所述目标用户所在的用户区域。
在一些实施例中,在根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据时,处理器301执行:
确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序;
根据所述相似度排序,选择相似度最高的若干个其他用户,作为参考用户;
根据所述参考用户的全景数据,对所述目标用户的全景数据进行补充。
在一些实施例中,确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序时,处理器301执行:
根据用户的全景数据,计算用户区域中其他用户与所述目标用户之间的欧氏距离;
根据所述欧氏距离确定其他用户与所述目标用户之间的相似度,并生成用户相似度排序。
存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序,从而执行各种功能应用以及数据处理。
在一些实施例中,如图6所示,图6为本申请实施例提供的电子设备的第二种结构示意图。电子设备300还包括:射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309。其中,处理器301分别与射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309电性连接。
射频电路303用于收发射频信号,以通过无线通信与网络设备或其他电子设备进行通信。
显示屏304可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。
控制电路305与显示屏304电性连接,用于控制显示屏304显示信息。
输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中,输入单元306可以包括指纹识别模组。
音频电路307可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中,音频电路307包括麦克风。所述麦克风与所述处理器301电性连接。所述麦克风用于接收用户输入的语音信息。
传感器308用于采集外部环境信息。传感器308可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。
电源309用于给电子设备300的各个部件供电。在一些实施例中,电源309可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图6中未示出,电子设备300还可以包括摄像头、蓝牙模块等,在此不再赘述。
由上可知,本申请实施例提供了一种电子设备,所述电子设备可以获取目标用户当前的全景数据,从全景数据中提取出全景特征,计算全景特征的信息量,当信息量小于预设阈值时,确定目标用户所述的区域,根据该区域中其他用户的全景数据补充目标用户的全景数据,然后,将补充的全景数据作为当前的全景数据再次提取全景数据并计算信息量,若信息量仍然小于预设阈值,则再次根据用户区域中其他用户的全景数据对目标用户的全景数据进行补充,重复执行上述步骤,直至计算得到的信息上大于或等于预设阈值。本方案通过对目标用户的全景特征的信息量进行计算,以评估出目标用户所拥有的数据是否足以支撑全景类别的准确识别,当信息量小于预设阈值时,则认为不足以支撑,此时,协同其他用户的相关数据对目标用户的全景数据进行补充,提高目标用户的全景数据的信息量,进而提高识别用户的全景类别的准确度。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的数据处理方法。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上对本申请实施例所提供的数据处理方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种数据处理方法,其特征在于,包括:
获取目标用户当前的全景数据;
根据所述全景数据生成全景特征;
计算所述全景特征的信息量,包括:计算所述全景特征的信息熵,用所述信息熵表示所述信息量;
若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据;
将补充后的全景数据作为用户当前的全景数据,并返回执行根据所述全景数据生成全景特征的步骤;
若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
2.如权利要求1所述的数据处理方法,其特征在于,根据所述全景数据生成全景特征的步骤,包括:
获取目标用户当前的全景数据,并确定所述全景数据的数据类型;
根据与所述数据类型匹配的特征提取方式根据所述全景数据生成全景特征。
3.如权利要求1所述的数据处理方法,其特征在于,计算所述全景特征的信息熵的步骤,包括:
确定所述全景特征中包含的特征项,其中,所述全景特征包括多个特征项,一个特征项对应多个数据分段;
根据所述特征项在对应的各数据分段上的概率,计算所述特征项的信息熵;
将多个特征项的信息熵均值作为所述全景特征的信息熵。
4.如权利要求1所述的数据处理方法,其特征在于,确定目标用户所在的用户区域的步骤,包括:
获取所述目标用户的位置信息;
根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域。
5.如权利要求4所述的数据处理方法,其特征在于,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据的步骤之后,还包括:
更新所述目标用户的数据补充次数;
根据所述位置信息和预设的用户距离确定所述目标用户所在的用户区域的步骤,包括:
确定所述目标用户当前的数据补充次数,根据预设的数据补充次数与用户距离之间的映射关系,确定当前的数据补充次数对应的用户距离,其中,数据补充次数与用户距离成正比;
根据确定的用户距离和所述位置信息确定所述目标用户所在的用户区域。
6.如权利要求1至5任一项所述的数据处理方法,其特征在于,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据的步骤,包括:
确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序;
根据所述相似度排序,选择相似度最高的若干个其他用户,作为参考用户;
根据所述参考用户的全景数据,对所述目标用户的全景数据进行补充。
7.如权利要求6所述的数据处理方法,其特征在于,确定所述用户区域中其他用户与所述目标用户之间的相似度,并生成用户相似度排序的步骤,包括:
根据用户的全景数据,计算用户区域中其他用户与所述目标用户之间的欧氏距离;
根据所述欧氏距离确定其他用户与所述目标用户之间的相似度,并生成用户相似度排序。
8.如权利要求6所述的数据处理方法,其特征在于,所述全景数据包括多个数据项,根据所述参考用户的全景数据,对所述目标用户的全景数据进行补充的步骤,包括:
确定所述目标用户的全景数据中存在数据缺失的时间区间和缺失的数据项;
从所述参考用户的全景数据中,查找符合所述时间区间和所述数据项的数据;
按照所述时间区间,将查找的数据填充至所述目标用户的全景数据中。
9.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取目标用户当前的全景数据;
特征提取模块,用于根据所述全景数据生成全景特征;
信息量计算模块,用于计算所述全景特征的信息量,包括:计算所述全景特征的信息熵,用所述信息熵表示所述信息量;
数据补充模块,用于若所述信息量小于预设阈值,则确定目标用户所在的用户区域,根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据;
特征提取模块还用于,将补充后的全景数据作为当前的全景数据,并根据所述全景数据生成全景特征;
数据补充模块还用于,若所述信息量大于或等于所述预设阈值,则完成对所述目标用户的全景数据的补充。
10.如权利要求9所述的数据处理装置,其特征在于,所述装置还包括:
次数统计模块,用于在数据补充模块根据所述用户区域中其他用户的全景数据补充所述目标用户的全景数据之后,更新所述目标用户的数据补充次数;
所述数据补充模块包括:
位置获取单元,用于获取所述目标用户的位置信息;
距离确定单元,用于确定所述目标用户当前的数据补充次数,根据预设的数据补充次数与用户距离之间的映射关系,确定当前的数据补充次数对应的用户距离,其中,数据补充次数与用户距离成正比;
区域划分单元,用于根据确定的用户距离和所述位置信息确定所述目标用户所在的用户区域。
11.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述的数据处理方法。
12.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282463.4A CN111797877B (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282463.4A CN111797877B (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797877A CN111797877A (zh) | 2020-10-20 |
CN111797877B true CN111797877B (zh) | 2024-05-10 |
Family
ID=72805762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910282463.4A Active CN111797877B (zh) | 2019-04-09 | 2019-04-09 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797877B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129983A (ja) * | 1989-10-14 | 1991-06-03 | Sony Corp | 映像信号符号化装置及び映像信号符号化方法 |
CN108492124A (zh) * | 2018-01-22 | 2018-09-04 | 阿里巴巴集团控股有限公司 | 店铺信息推荐方法、装置及客户端 |
CN109145145A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
-
2019
- 2019-04-09 CN CN201910282463.4A patent/CN111797877B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129983A (ja) * | 1989-10-14 | 1991-06-03 | Sony Corp | 映像信号符号化装置及び映像信号符号化方法 |
CN109145145A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
CN108492124A (zh) * | 2018-01-22 | 2018-09-04 | 阿里巴巴集团控股有限公司 | 店铺信息推荐方法、装置及客户端 |
Non-Patent Citations (2)
Title |
---|
支持向量机建模及游梁式抽油机抽汲参数优化;徐向前;周好斌;徐生辉;;石油矿场机械(第09期);全文 * |
构建基于小波熵的自训练半监督支持向量机分类模型评价老年步态;吴建宁等;中国生物医学工程学报(第5期);第588-594页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111797877A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797288B (zh) | 数据筛选方法、装置、存储介质及电子设备 | |
CN109800325A (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN111800445B (zh) | 消息推送方法、装置、存储介质及电子设备 | |
CN108289057B (zh) | 视频编辑方法、装置及智能移动终端 | |
CN111797849B (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN113505256B (zh) | 特征提取网络训练方法、图像处理方法及装置 | |
CN111796926A (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN111491123A (zh) | 视频背景处理方法、装置及电子设备 | |
CN111797148A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797851A (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111798019B (zh) | 意图预测方法、装置、存储介质及电子设备 | |
WO2020207297A1 (zh) | 信息处理方法、存储介质及电子设备 | |
CN111797874B (zh) | 行为预测方法、装置、存储介质及电子设备 | |
CN111797655A (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN111797877B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797860B (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111797127B (zh) | 时序数据分割方法、装置、存储介质及电子设备 | |
CN111797878B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114255321A (zh) | 采集宠物鼻纹的方法、装置、存储介质及电子设备 | |
CN111797261B (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN111797071B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111796916A (zh) | 数据分发方法、装置、存储介质及服务器 | |
CN111797880A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111800287B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797863A (zh) | 模型训练方法、数据处理方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |