CN111831630B - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111831630B CN111831630B CN201911401978.8A CN201911401978A CN111831630B CN 111831630 B CN111831630 B CN 111831630B CN 201911401978 A CN201911401978 A CN 201911401978A CN 111831630 B CN111831630 B CN 111831630B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- sharing
- equipment
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000003672 processing method Methods 0.000 title abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 36
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 claims description 7
- 238000004138 cluster model Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
本发明实施例公开了一种数据处理方法、装置、电子设备和计算机可读存储介质,通过周期性获取共享设备的特征数据,对共享设备的特征数据进行预处理,得到目标特征向量,将目标特征向量输入至预先训练的信息识别模型,以识别被私占的共享设备,由此,可以提高识别被私占设备的准确性,减小损失。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。
背景技术
随着共享经济与互联网的发展,共享单车、共享汽车、共享充电宝等共享设备逐渐被广大互联网用户所接受。这种整合线下的闲散物品,让它们以较低的价格提供产品或服务的方式,以其独有的优势在市场上占领了一席之地。但是,共享经济为用户提供更加自由便捷的服务时,难免会遇到用户私占共享设备等资产损失的问题,因此,能否及时发现这些私占现象,对共享服务提供方具有重要意义。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法、装置、电子设备和计算机可读存储介质,以提高识别被私占设备的准确性,减少损失。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:
周期性获取共享设备的特征数据,所述特征数据包括共享设备信息、与所述共享设备相关联的用户信息和所述共享设备对应的私占信息;
对所述共享设备的特征数据进行预处理,以确定目标特征向量;
将所述目标特征向量输入信息识别模型中,以识别被私占的共享设备;所述信息识别模型通过多个共享设备的历史特征数据预先训练获得;
其中,所述共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项;
所述用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项;
所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项;所述共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,所述私占用户为最后一次与所述共享设备相关联的用户。
可选的,对所述共享设备的特征数据进行预处理,以获取目标特征向量包括:
分别对所述共享设备信息、所述用户信息和所述私占信息进行编码,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量;
将所述共享设备信息特征向量、用户信息特征向量和私占信息特征向量分别与地理信息特征进行特征交叉,获取第一特征向量、第二特征向量和第三特征向量;
分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理,以获取第一子向量、第二子向量和第三子向量;
对所述第一子向量、第二子向量和第三子向量进行拼接以获取所述目标特征向量。
可选的,分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理,以获取第一子向量、第二子向量和第三子向量包括:
分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理;
分别对特征嵌入处理后的第一特征向量、第二特征向量和第三特征向量进行标准化处理,获得所述第一子向量、第二子向量和第三子向量。
可选的,分别对所述共享设备信息、所述用户信息和所述私占信息进行编码,以获取第一特征向量、第二特征向量和第三特征向量包括:
采用独热编码分别对所述共享设备信息、所述用户信息和所述私占信息进行编码处理,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量。
可选的,对所述共享设备的特征数据进行预处理还包括:
对所述共享设备的特征数据进行数据清洗,以去除异常值。
可选的,对所述共享设备的特征数据进行数据清洗包括:
采用箱形图方法对所述共享设备的特征数据进行数据清洗。
可选的,对所述共享设备的特征数据进行预处理还包括:
将所述共享设备的特征数据中的空值替换为对应的特征的均值,以减少异常值。
可选的,所述信息识别模型通过如下步骤训练获得:
获取训练数据,所述训练数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据;
对所述训练数据进行数据预处理,以获取训练样本;
根据所述训练样本训练获取所述信息识别模型。
可选的,所述多个被私占的对象的历史特征数据被设置为正样本数据;所述多个正常工作的对象的历史特征数据被设置为负样本数据。
可选的,所述信息识别模型通过如下步骤训练获得:
周期性获取训练数据,所述训练数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据;
对所述训练数据进行数据预处理,以获取训练样本;
根据所述训练样本对所述信息识别模型进行周期性训练,以更新所述信息识别模型。
可选的,所述信息识别模型为Wide And Deep模型。
可选的,所述方法还包括:
获取被私占的各共享设备信息,所述共享设备信息至少包括位置信息;
将所述被私占的各共享设备信息输入至预先训练的聚类模型,以获取所述被私占的各共享设备信息的聚集区域。
可选的,所述聚类模型为HDBSCAN模型。
第二方面,本发明实施例提供一种数据处理装置,所述装置包括:
数据获取单元,被配置为周期性获取共享设备的特征数据,所述特征数据包括共享设备信息、与所述共享设备相关联的用户信息和所述共享设备对应的私占信息;
数据预处理单元,被配置为对所述共享设备的特征数据进行预处理,以确定目标特征向量;
识别单元,被配置为将所述目标特征向量输入信息识别模型中,以识别被私占的共享设备;所述信息识别模型通过多个共享设备的历史特征数据预先训练获得;
其中,所述共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项;
所述用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项;
所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项;所述共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,所述私占用户为最后一次与所述共享设备相关联的用户。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时以实现如上所述的方法。
本发明实施例通过周期性获取共享设备的特征数据,对共享设备的特征数据进行预处理,得到目标特征向量,将目标特征向量输入至预先训练的信息识别模型,以识别被私占的共享设备,由此,可以提高识别被私占设备的准确性,减小损失。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的数据处理方法的流程图;
图2是本发明实施例的数据预处理方法的流程图;
图3是本发明实施例的一种信息识别模型训练方法的流程图;
图4是本发明实施例的另一种信息识别模型训练方法的流程图;
图5是本发明实施例的私占共享设备现象聚集区域的示意图;
图6是本发明实施例的数据处理方法的数据处理过程示意图;
图7是本发明实施例的数据处理装置的示意图;
图8是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为了及时发现共享设备的私占现象,在相关技术中,通过共享设备沉默时间(也即共享设备与服务器断开连接的持续时间)来分配人力去回收共享设备的私占现象识别方法,通过筛选共享设备沉默时间,分配人力去线下找共享设备,在找到共享设备后,人工判断共享设备是否被用户私占,若被私占,则会做出相应处理。此类方法虽然简单易行,但是由于共享设备沉默时间与私占行为虽有相关性,但并不是严格的一一映射关系,通过共享设备沉默时间来判断私占共享设备的方法准确率较低。
由此,本实施例通过将共享设备对应的目标特征向量输入预先训练的信息识别模型来识别该共享设备是否被私占,以提高识别准确性。
图1是本发明实施例的数据处理方法的流程图。如图1所示,本发明实施例的数据处理方法包括以下步骤:
步骤S110,周期性获取共享设备的特征数据。特征数据包括共享设备信息、与共享设备相关联的用户信息和共享设备对应的私占信息。其中,共享设备可以为共享单车、共享电动车、共享汽车或共享充电宝等设备,与共享设备相关联的用户信息为租用过该共享设备的用户信息。可选的,根据平台或服务器的日志信息获取共享设备的特征数据。
共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项。在本实施例中,共享设备周期性地向预定服务器发送信号,以证明共享设备在正常运行,例如每隔1分钟与预定服务器通信一次。通信时间序列信息用于表征共享设备向预定服务器发送的信号序列。
与该共享设备相关联的用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项。其中,用户属性信息可以包括用户的账户信息等。用户对应的任务信息包括用户历史租用共享设备的信息。用户对应的反馈信息可以为该用户反馈的维修信息和上报的私占信息等。
所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项。共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,私占用户为最后一次与所述共享设备相关联的用户。私占场景信息可以包括用户私占共享设备的起始地址和停放地址等。
应理解,根据共享设备的不同,共享设备信息、与共享设备相关联的用户信息及共享设备对应的私占信息并不限于上述几种信息,其他与共享设备相关的信息均可应用于本实施例中。
步骤S120,对共享设备的特征数据进行预处理,以确定目标特征向量。
在一种可选的实现方式中,如图2所示,步骤120包括:
步骤S121,分别对共享设备信息、用户信息和私占信息进行编码,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量。可选的,采用独热(One-hot)编码分别对共享设备信息、用户信息和私占信息进行编码处理,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量。
One-hot编码(也即一位有效编码)是分类变量作为二进制向量的表示,其主要采用N位状态寄存器来对N个状态进行编码,每个状态都由其他独立的寄存器位,并且在任意时候只有一位有效。应理解,其它编码方式,例如哑变量编码方式等均可以应用于本实施例中,本实施例并不对编码方法进行限制。
步骤S122,将共享设备信息特征向量、用户信息特征向量和私占信息特征向量分别与地理信息特征进行特征交叉,获取第一特征向量、第二特征向量和第三特征向量。
特征交叉是数据特征的一种处理方式,通过特征组合的方式增加特征的维度。也就是说,特征交叉一种合成特征的方法、可以在多维特征数据集上进行很好的非线性特征拟合。可选的,在本实施例中,将共享设备信息特征向量、用户信息特征向量和私占信息特征向量分别与geo地理信息特征进行特征交叉,可以反映出共享设备相关信息与地理信息的关系,由此,可以增加共享设备的特征维度,从而可以提高被私占共享设备的识别准确率。
步骤S123,分别对第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理,以获取第一子向量、第二子向量和第三子向量。在某些情况下,特征交叉可能会产生特征稀疏的问题,由此,本实施例采用特征嵌入处理以得到相对稠密的特征。可选的,本实施例对一特征向量、第二特征向量和第三特征向量做embedding嵌入处理,以解决特征稀疏的问题,提高特征表达能力,进而可以提高被私占共享设备的识别准确率。
在一种可选的实现方式中,在分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理后,对数据进行标准化处理,获得所述第一子向量、第二子向量和第三子向量。可选的,采用Z-score方法对特征嵌入后的第一特征向量、第二特征向量和第三特征向量中的连续数据进行标准化处理,以矫正数据分布,从而可以进一步提高被私占共享设备的识别准确率。其中,Z-score标准化是基于原始数据的均值和标准差进行的数据标准化。
步骤S124,对第一子向量、第二子向量和第三子向量进行拼接以获取目标特征向量。可选的,对第一子向量、第二子向量和第三子向量进行首尾拼接以获取目标特征向量。
在一种可选的实现方式中,在步骤S121之前,也即在进行数据编码之前,共享设备的特征数据的预处理还包括:去除共享设备的特征数据中的异常值。
在一种可选的实现方式中,对共享设备的特征数据进行数据清洗,以去除异常值。可选的,采用箱形图方法对所述共享设备的特征数据进行数据清洗。
箱形图(Box-plot)又称盒式图或箱线图,是一种用作显示一组分散情况资料的统计图,主要用于反映数据分布的特征,还可进行多组数据分布特征的比较。其中,通过找出一组数据的最大值、最小值、中位数和两个四分位数后,连接两个四分位数画出箱子,再将最大值和最小值与箱子相连接,中位数位于箱子中间,由此,可以去除大于最大值,小于最小值的异常值。由此,本实施例可以预先设置共享设备的各特征数据的临界值,根据临界值采用箱形图方法对共享设备的特征数据进行数据清洗,以去除异常值。应理解,本实施例并不对数据清洗所采用的方法进行限制,其他去除异常值的数据清洗方法也可应用于本实施例中。
在一种可选的实现方式中,将共享设备的特征数据中的空值替换为对应的特征的均值,以减少异常值。例如,共享设备有私占记录,但是私占时间为空值,则可以根据其他类似的共享设备的私占时间均值对该空值进行填充,由此,可以减少数据的异常值。应理解,在共享设备的数据分布倾斜时,也可采用对应特征的中位数进行填充。
步骤S130,将获取的目标特征向量输入信息识别模型中,以识别被私占的共享设备。其中,信息识别模型通过多个共享设备的历史特征数据预先训练获得。
在一种可选的实现方式中,将识别结果为被私占的共享设备的信息发送至对应的工作人员终端,以使得工作人员找到并确认该共享设备是否被私占,并在确认后上报被私占的确认信息和私占情况,平台或服务器根据反馈的确认信息向私占用户终端下发对私占用户的相应惩罚或警告措施,例如近期无法租用共享设备等。其中,私占用户为最后租用该共享设备的用户,私占情况可以为恶意私占、无意私占等。
本实施例通过周期性获取共享设备的特征数据,对共享设备的特征数据进行预处理,得到目标特征向量,将目标特征向量输入至预先训练的信息识别模型,以识别被私占的共享设备,由此,可以提高识别被私占设备的准确性,减小资产损失。
在一种可选的实现方式中,如图3所示,信息识别模型练通过如下步骤训练获得:
步骤S210,获取训练数据。其中,训练数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据。其中,多个被私占的对象的历史特征数据被设置为正样本数据;所述多个正常工作的对象的历史特征数据被设置为负样本数据。应理解,也可将多个被私占的对象的历史特征数据设置为负样本数据,将多个正常工作的对象的历史特征数据设置为正样本数据,本实施例并不对此进行限制。
步骤S220,对训练数据进行数据预处理,以获取训练样本。其中,可以基于图2中所示的数据预处理方式对训练数据进行数据预处理,在此不再赘述。
步骤S230,根据训练样本训练获取信息识别模型。
在一种可选的实现方式中,本实施例的信息识别模型为Wide And Deep模型。WideAnd Deep模型结合了线性模型的记忆能力和DNN(Deep Neural Networks,深度神经网络)的泛化能力,在训练过程中同时优化Wide和Deep两个模型的参数,从而最优化整体模型的预测和识别能力。
在Wide And Deep模型中,Wide端是线性模型,输入特征可以是连续特征,也可以是离散特征,在本实施例的数据预处理中,对离散特征进行了特征交叉处理以构成高维度的特征,并且,在线性模型训练中通过L1正则化处理,能够较快收敛到有效的特征组合,因此,本实施例可以充分提取共享设备、用户和地理位置之间的交叉信息。Deep端对应的是DNN模型,DNN模型通过反向传播调整隐藏层的权重,以更新各类特征的权重,本实施例可以通过Deep端拟合共享设备的类别特征信息。由此,本实施例通过采用Wide And Deep模型,可以较为准确的识别共享设备是否被侵占。
本实施例通过对获取的多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据进行数据预处理,得到训练样本,并根据训练样本对信息识别模型进行训练,以使得训练好的信息识别模型能够较为准确地识别共享设备是否被侵占。
在另一种可选的实现方式中,所述信息识别模型练通过如下步骤训练获得:
步骤S310,周期性获取训练数据,所述训练样本数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据。其中,多个被私占的对象的历史特征数据被设置为正样本数据;所述多个正常工作的对象的历史特征数据被设置为负样本数据。应理解,也可将多个被私占的对象的历史特征数据设置为负样本数据,将多个正常工作的对象的历史特征数据设置为正样本数据,本实施例并不对此进行限制。
步骤S320,对训练数据进行数据预处理,以获取训练样本。其中,可以基于图2中所示的数据预处理方式对训练数据进行数据预处理,在此不再赘述。
步骤S330,根据训练样本对信息识别模型进行周期性训练,以更新所述信息识别模型。
由于用户对共享设备的私占行为具有不稳定性,其中既存在蓄意长期私占的情况,也存在无意短期私占的情况,因此需要尽可能采用近期的数据进行训练。由此,本实施例通过对周期性获取的多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据进行数据预处理,得到训练样本,并根据训练样本对信息识别模型进行周期训练,以周期性更新所述信息识别模型,由此,可以进一步提高训练好的信息识别模型的识别准确性。
在一种可选的实现方式中,所述方法还包括:
获取被私占的各共享设备信息,将被私占的各共享设备信息输入至预先训练的聚类模型,以获取所述被私占的各共享设备信息的聚集区域。其中,被私占的各共享设备可以由上述数据处理方法确定,在此不再赘述。被私占的共享设备信息至少包括共享设备当前的位置信息。可选的,聚类模型为HDBSCAN模型。HDBSCAN模型从某个核心点出发,不断向密度可大的区域扩张,从而得到一个包括核心点和边界点的最大化区域。
图5是本发明实施例的私占共享设备现象聚集区域的示意图。如图5所示,根据聚类模型输出的被私占的共享设备的聚集区域可以直观地得到哪些区域的私占现象较多,以进行重点处理。可选的,可以将聚类模型的输出结果发送至相关工作人员的移动终端,以便于工作人员对各私占区域采取有效措施,这极大地提高了处理私占现象的效率,减小了损失。
图6是本发明实施例的数据处理方法的数据处理过程示意图。如图6所示,获取当前各共享设备的特征数据,特征数据包括共享设备信息、与共享设备相关联的用户信息和共享设备对应的私占信息。将当前各共享设备的特征数据输入至数据预处理单元61进行数据清洗、数据填充、数据编码、特征交叉、特征嵌入及数据标准化等数据预处理,输出各共享设备的对应的目标特征向量,将各共享设备的目标特征向量输入至预先训练的信息识别模型62中,输出各共享设备的私占状态,也即各共享设备当前是否处于被私占状态,将处于被私占状态的各共享设备的信息输入至聚类模型63,输出被私占的共享设备的聚集区域。可选的,可以将被私占的共享设备的信息以及被私占的共享设备的聚集区域结果发送至相关工作人员的移动终端,以便工作人员对各私占区域采取有效措施,由此,可以提高处理私占现象的效率。
本实施例通过对获取的共享设备的特征数据进行预处理,得到目标特征向量,将目标特征向量输入至预先训练的信息识别模型,以识别被私占的共享设备,由此,可以提高识别被私占设备的准确性。并且,通过将被私占的各共享设备的信息数据至预先训练的聚类模型,以获取被私占共享设备的聚集区域,并通过将被私占的共享设备的信息以及被私占的共享设备的聚集区域结果发送至相关工作人员的移动终端,以便工作人员对各私占区域采取有效措施,由此,可以提高处理私占现象的效率,进一步减小损失。
图7是本发明实施例的数据处理装置的示意图。如图7所示,本发明实施例的数据处理装置7包括数据获取单元71、数据预处理单元72和识别单元73。
数据获取单元71被配置为周期性获取共享设备的特征数据,所述特征数据包括共享设备信息、与所述共享设备相关联的用户信息和所述共享设备对应的私占信息。数据预处理单元72被配置为对所述共享设备的特征数据进行预处理,以确定目标特征向量。识别单元73被配置为将所述目标特征向量输入信息识别模型中,以识别被私占的共享设备;其中,所述信息识别模型通过多个共享设备的历史特征数据预先训练获得。
其中,所述共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项;所述用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项;所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项;所述共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,所述私占用户为最后一次与所述共享设备相关联的用户。
在一种可选的实现方式中,数据处理装置7还包括被私占共享设备信息获取单元74和聚集区域获取单元75。其中,被私占共享设备信息获取单元74被配置为获取被私占的各共享设备信息,所述共享设备信息至少包括位置信息。聚集区域获取单元75被配置为将所述被私占的各共享设备信息输入至预先训练的聚类模型,以获取所述被私占的各共享设备信息的聚集区域。
在一种可选的实现方式中,数据处理装置7还包括信息发送单元76。信息发送单元76被配置为发送被私占的共享设备的信息以及被私占的共享设备的聚集区域结果。
本实施例通过对获取的共享设备的特征数据进行预处理,得到目标特征向量,将目标特征向量输入至预先训练的信息识别模型,以识别被私占的共享设备,由此,可以提高识别被私占设备的准确性。并且,通过将被私占的各共享设备的信息数据至预先训练的聚类模型,以获取被私占共享设备的聚集区域,并通过将被私占的共享设备的信息以及被私占的共享设备的聚集区域结果发送至相关工作人员的移动终端,以便工作人员对各私占区域采取有效措施,由此,可以提高处理私占现象的效率,进一步减小损失。
图8是本发明实施例的电子设备的示意图。如图8所示,图8所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
周期性获取共享设备的特征数据,所述特征数据包括共享设备信息、与所述共享设备相关联的用户信息和所述共享设备对应的私占信息;
对所述共享设备的特征数据进行预处理,以确定目标特征向量;
将所述目标特征向量输入信息识别模型中,以识别被私占的共享设备;所述信息识别模型通过多个共享设备的历史特征数据预先训练获得;
其中,所述共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项;
所述用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项;
所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项;所述共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,所述私占用户为最后一次与所述共享设备相关联的用户。
2.根据权利要求1所述的方法,其特征在于,对所述共享设备的特征数据进行预处理,以获取目标特征向量包括:
分别对所述共享设备信息、所述用户信息和所述私占信息进行编码,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量;
将所述共享设备信息特征向量、用户信息特征向量和私占信息特征向量分别与地理信息特征进行特征交叉,获取第一特征向量、第二特征向量和第三特征向量;
分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理,以获取第一子向量、第二子向量和第三子向量;
对所述第一子向量、第二子向量和第三子向量进行拼接以获取所述目标特征向量。
3.根据权利要求2所述的方法,其特征在于,分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理,以获取第一子向量、第二子向量和第三子向量包括:
分别对所述第一特征向量、第二特征向量和第三特征向量进行特征嵌入处理;
分别对特征嵌入处理后的第一特征向量、第二特征向量和第三特征向量进行标准化处理,获得所述第一子向量、第二子向量和第三子向量。
4.根据权利要求2所述的方法,其特征在于,分别对所述共享设备信息、所述用户信息和所述私占信息进行编码,以获取第一特征向量、第二特征向量和第三特征向量包括:
采用独热编码分别对所述共享设备信息、所述用户信息和所述私占信息进行编码处理,获取共享设备信息特征向量、用户信息特征向量和私占信息特征向量。
5.根据权利要求1所述的方法,其特征在于,对所述共享设备的特征数据进行预处理还包括:
对所述共享设备的特征数据进行数据清洗,以去除异常值。
6.根据权利要求5所述的方法,其特征在于,对所述共享设备的特征数据进行数据清洗包括:
采用箱形图方法对所述共享设备的特征数据进行数据清洗。
7.根据权利要求1所述的方法,其特征在于,对所述共享设备的特征数据进行预处理还包括:
将所述共享设备的特征数据中的空值替换为对应的特征的均值,以减少异常值。
8.根据权利要求1所述的方法,其特征在于,所述信息识别模型通过如下步骤训练获得:
获取训练数据,所述训练数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据;
对所述训练数据进行数据预处理,以获取训练样本;
根据所述训练样本训练获取所述信息识别模型。
9.根据权利要求8所述的方法,其特征在于,所述多个被私占的对象的历史特征数据被设置为正样本数据;所述多个正常工作的对象的历史特征数据被设置为负样本数据。
10.根据权利要求1所述的方法,其特征在于,所述信息识别模型通过如下步骤训练获得:
周期性获取训练数据,所述训练数据包括多个被私占的对象的历史特征数据和多个正常工作的对象的历史特征数据;
对所述训练数据进行数据预处理,以获取训练样本;
根据所述训练样本对所述信息识别模型进行周期性训练,以更新所述信息识别模型。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述信息识别模型为Wide AndDeep模型。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取被私占的各共享设备信息,所述共享设备信息至少包括位置信息;
将所述被私占的各共享设备信息输入至预先训练的聚类模型,以获取所述被私占的各共享设备信息的聚集区域。
13.根据权利要求12所述的方法,其特征在于,所述聚类模型为HDBSCAN模型。
14.一种数据处理装置,其特征在于,所述装置包括:
数据获取单元,被配置为周期性获取共享设备的特征数据,所述特征数据包括共享设备信息、与所述共享设备相关联的用户信息和所述共享设备对应的私占信息;
数据预处理单元,被配置为对所述共享设备的特征数据进行预处理,以确定目标特征向量;
识别单元,被配置为将所述目标特征向量输入信息识别模型中,以识别被私占的共享设备;所述信息识别模型通过多个共享设备的历史特征数据预先训练获得;
其中,所述共享设备信息包括共享设备的位置信息、定位共享设备的卫星信息、定位共享设备的基站信息、共享设备与预定服务器之间的通信信息和通信时间序列信息、共享设备对应的任务信息以及共享设备的维修信息中的至少一项;
所述用户信息包括用户属性信息、用户对应的任务信息以及用户对应的反馈信息中的至少一项;
所述共享设备对应的私占信息包括所述共享设备被私占的时间、被私占的频次信息、私占用户信息和私占场景信息中的至少一项;所述共享设备被私占的时间用于表征被举报时间点至当前时间的时间差,所述私占用户为最后一次与所述共享设备相关联的用户。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-13中任一项所述的方法。
16.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时以实现如权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401978.8A CN111831630B (zh) | 2019-12-30 | 2019-12-30 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911401978.8A CN111831630B (zh) | 2019-12-30 | 2019-12-30 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831630A CN111831630A (zh) | 2020-10-27 |
CN111831630B true CN111831630B (zh) | 2023-12-05 |
Family
ID=72912561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911401978.8A Active CN111831630B (zh) | 2019-12-30 | 2019-12-30 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831630B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112001A (zh) * | 2021-04-01 | 2021-07-13 | 北京嘀嘀无限科技发展有限公司 | 一种充电数据处理方法、装置和电子设备 |
CN113872186A (zh) * | 2021-09-06 | 2021-12-31 | 广西电网有限责任公司电力科学研究院 | 基于模仿学习的微电网控制策略推荐模型训练系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028546A1 (zh) * | 2016-08-10 | 2018-02-15 | 腾讯科技(深圳)有限公司 | 一种关键点的定位方法及终端、计算机存储介质 |
CN109903095A (zh) * | 2019-03-01 | 2019-06-18 | 上海拉扎斯信息科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN110209926A (zh) * | 2019-04-22 | 2019-09-06 | 北京三快在线科技有限公司 | 商家推荐方法、装置、电子设备及可读存储介质 |
WO2019174395A1 (zh) * | 2018-03-13 | 2019-09-19 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法、装置及设备 |
-
2019
- 2019-12-30 CN CN201911401978.8A patent/CN111831630B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028546A1 (zh) * | 2016-08-10 | 2018-02-15 | 腾讯科技(深圳)有限公司 | 一种关键点的定位方法及终端、计算机存储介质 |
WO2019174395A1 (zh) * | 2018-03-13 | 2019-09-19 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法、装置及设备 |
CN109903095A (zh) * | 2019-03-01 | 2019-06-18 | 上海拉扎斯信息科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN110209926A (zh) * | 2019-04-22 | 2019-09-06 | 北京三快在线科技有限公司 | 商家推荐方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
基于异构数据源的政法信息共享平台数据预处理系统研究;李志敏;梁柏超;贺文锋;陈俊健;;电子设计工程(19);全文 * |
基于深度卷积神经网络与中心损失的人脸识别;张延安;王宏玉;徐方;;科学技术与工程(35);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111831630A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN108269087B (zh) | 位置信息的处理方法及装置 | |
CN109492772B (zh) | 生成信息的方法和装置 | |
CN111442778A (zh) | 出行方案推荐方法、装置、设备及计算机可读存储介质 | |
CN111831630B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN110310114B (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN110929799B (zh) | 用于检测异常用户的方法、电子设备和计算机可读介质 | |
CN110727868A (zh) | 对象推荐方法、装置和计算机可读存储介质 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN109615504A (zh) | 产品推荐方法、装置、电子设备和计算机可读存储介质 | |
CN113449753A (zh) | 业务风险预测方法、装置和系统 | |
CN110619535A (zh) | 一种数据处理方法及其装置 | |
CN106934679A (zh) | 信息匹配方法及装置 | |
CN112529321B (zh) | 基于用户数据的风险预测方法、装置及计算机设备 | |
CN113918718A (zh) | 基于人工智能的车险用户分类方法、装置、设备及介质 | |
CN113204642A (zh) | 文本聚类方法、装置、存储介质和电子设备 | |
US20130117245A1 (en) | Method and system for identification of asset records in a version managed datastore | |
CN115953080A (zh) | 工程师服务等级确定方法、设备和存储介质 | |
CN117056591A (zh) | 基于动态预测的电力缴费渠道智能推荐方法及系统 | |
CN116340586A (zh) | 基于云平台的汽车故障管理方法、系统及存储介质 | |
CN113743435A (zh) | 业务数据分类模型的训练、业务数据的分类方法和装置 | |
CN113240173A (zh) | 用户流失预测方法及装置 | |
CN116911304B (zh) | 一种文本推荐方法及装置 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理系统 | |
CN117272123B (zh) | 一种基于大模型的敏感数据处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |