CN108256538A - 一种用户资料预测方法和系统 - Google Patents

一种用户资料预测方法和系统 Download PDF

Info

Publication number
CN108256538A
CN108256538A CN201611236207.4A CN201611236207A CN108256538A CN 108256538 A CN108256538 A CN 108256538A CN 201611236207 A CN201611236207 A CN 201611236207A CN 108256538 A CN108256538 A CN 108256538A
Authority
CN
China
Prior art keywords
data
predicted
value
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611236207.4A
Other languages
English (en)
Inventor
赵岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201611236207.4A priority Critical patent/CN108256538A/zh
Publication of CN108256538A publication Critical patent/CN108256538A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明涉及一种用户资料预测方法和系统。该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信息,确定数据向量。在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值,获取待预测数据的缺失值。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。

Description

一种用户资料预测方法和系统
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用户资料预测方法和系统。
背景技术
数据缺失是数据分析与处理应用领域必须面对的一个重要问题,它直接影响挖掘模式的正确性和准确性。缺失填充能够为后续处理提供更多信息,在应用中发挥重要作用,成为一种最有效的缺失数据处理方法。缺失填充就是根据观测数据推断或估计缺失数据的过程,传统的方法可以包括回归技术、最近邻方法和均值填充等。
在数据挖掘领域,常用的缺失填充方法是k最近邻填充(k-NN,k-nearestneighbor)。k-NN算法属于非线性方法,具有简单、易于实现和填充准确率高等特点。该算法在预测分类型数据和数值型数据时,分别使用了众数和均值的计算方式,但这两种方式忽略了距离对目标预测值的影响,即距离近的训练样本对未知样本的影响要大于距离远的样本。
发明内容
本发明提供了一种用户资料预测方法和系统。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。
第一方面,提供了一种用户资料预测方法,该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信息,确定数据向量。在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值,获取待预测数据的缺失值。
在一种可选的实现中,训练数据为数据集合中样本数据的属性信息与样本数据的取值匹配的数据。
在一种可选的实现中,当待预测数据为分类型数据时,根据至少一个训练数据和距离值,获取待预测数据的缺失值,具体包括:根据至少一个训练数据和距离值,获取至少一个训练数据的类别权重值。选取类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。
在一种可选的实现中,当待预测数据为分类型数据时,类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
在一种可选的实现中,当待预测数据为数值型数据时,根据所述至少一个训练数据和距离值,获取待预测数据的缺失值,具体包括:根据至少一个训练数据和距离值,获取待预测数据的预测值。
在一种可选的实现中,当待预测数据为数值型数据时,预测值的表达式为:
其中,xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与待预测数据的距离。
第二方面,提供了一种用户资料预测系统,该系统可以包括:获取单元用于对数据集合进行筛选,获取训练数据。确定单元用于根据训练数据的属性信息,确定数据向量。选取单元用于在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。获取单元还用于根据至少一个训练数据和所述距离值,获取待预测数据的缺失值。其中,训练数据为数据集合中样本数据的属性信息与样本数据的取值匹配的数据。
在一种可选的实现中,当待预测数据为分类型数据时,获取单元具体用于根据至少一个训练数据和距离值,获取至少一个训练数据的类别权重值。选取单元用于选取类别权重值中最大的类别权重值应的类别为待预测数据的类别。
在一种可选的实现中,当待预测数据为分类型数据时,类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
在一种可选的实现中,当待预测数据为数值型数据时,获取单元具体用于根据至少一个训练数据和距离值,获取待预测数据的预测值。其中,预测值的表达式为:
xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与待预测数据的距离。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种用户资料预测方法的流程图示意图;
图2本发明实施例提供的一种用户资料预测系统的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在数据挖掘领域中,k最近邻填充算法具有简单、易于实现和填充准确率高等特点。该算法在预测分类型数据和数值型数据时分别使用了众数和均值的计算方式。其中,众数为出现次数最多的数据。本申请在传统的k最近邻填充算法上进行了优化,从而优化了用户资料预测方法。
图1为本发明实施例提供的一种用户资料预测方法的流程图示意图。如图1所示,该方法可以包括:
步骤110、采集用户资料数据,建立数据集合,数据集合包括多个样本数据。
步骤120、对数据集合进行筛选,获取训练数据。
对于k近邻算法,由于数据本身就是分类器,因此数据质量直接决定预测效果。为了提升数据质量,需要去除数据中的异常数据,同时保证数据属性的完整性。本申请中的数据质量包括数据的真实性(准确的反映实际发生的业务)和数据的完备性(所有属性都有值)。
其中,异常数据为数据的属性值偏离正常取值范围的数据,比如属性“房屋面积”的值为“10000”平方米,即数据的属性信息与正常取值范围的数据不匹配。也就是说,该训练数据为数据集合中样本数据的属性信息与样本数据的取值相匹配的数据。
步骤130、根据训练数据的属性信息,进行归一化处理,以确定数据向量。
归一化处理的目的是为了把不同来源的数据统一到一个参考系下,防止向量中绝对值过大的元素对距离计算造成绝对的影响。也就是说,根据训练数据的属性信息,划分在一起,以确定数据向量。
在k-NN算法中,训练数据用n维数值属性描述,每个样本数据代表n维向量空间的一个点,这样,所有的训练样本都存放在n维数据向量空间中。
步骤140、在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。
给定一个未知样本作为待预测数据,k-NN算法搜索该数据向量空间,找出与待预测数据距离最近的k个训练样本数据,从而获取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值,这k个训练样本数据是待预测数据的k个“近邻”。
其中,距离的计算方式有多种,可以包括余弦距离、标准化欧式距离、杰卡德相似系数等,本发明实施例在此不作限定。
当确定了待预测数据的k个“近邻”后,就可以根据这k个近邻相应的字段值来计算未知样本的缺失值。
步骤150、根据至少一个训练数据和距离值,获取待预测数据的缺失值。
对于传统数值型数据的计算方式是取k个近邻向量对应数值的均值,但是这两种方法都忽略了数据距离对待预测数值的影响。因此本发明实施例针对以上最常见的两类待预测数据类型,在近邻计算中引入距离权重,获取待预测数据的缺失值,该缺失值可以是数据类别的权重值,也可以是预期值。
可选地,在分类型数据预测中,根据数据向量中至少一个训练数据和距离值,获取至少一个训练数据的类别权重值;
获取的所有类别权重值构成了一个集合w。由于类别权重值和类别标签是一一对应的关系,取最大权重值所对应的类别作为待预测向量的类别。
其中,当待预测数据为分类型数据时,类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
可见,所有权重构成了一个集合W。由于权重和类别标签是一一对应的关系,取最大权重值所对应的标签cm作为待预测向量的缺失属性值。
在一个例子中,在待预测属性值为分类型数据时,表1是与待预测样本最近邻的k个样本(本示例中k取值为5,下同)。
由于样本A和样本B距离待预测样本更近,即样本A和样本B与待预测样本更相似。结合公式一可知,wc为性别权重,经计算女性的权重值大于男性的权重值,即样本A和样本B被赋予了更高的类别权重,从而获得了与样本A和B一致的预测结果。
表1
样本数据 性别 距离
A 0.1
B 0.2
C 0.8
D 0.8
E 0.9
表2是传统k-NN算法与表1获取的预测结果的对比表。
表2
算法 预测值
传统k近邻算法
改进k近邻算法
表2中传统k近邻算法与本发明实施例提供的改进k近邻算法比较,改进k近邻算法得到的预测值的性别与预测样本更接近。
若样本A为男性,样本B为女性,则利用样本A、样本C、样本D和样本E的权重值之和与样本B的权重值作比较,选取权重值大的对应的性别。
可选地,在数值型数据预测中,根据数据向量中至少一个训练数据和距离值,获取待预测数据的预测值。
其中,预测值的表达式为:
xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与待预测数据的距离;
在一个例子中,在待预测属性值为数值型数据,表3是与待预测样本最近邻的k个样本。
由于样本A和样本B距离待预测样本更近,且两个样本的值都大于均值,因此期望获得一个大于均值的预测值。结合公式二,可知预测结果为61,大于均值40(5个样本的均值),与预期相符,因此具有更强的可解释性。
表3
样本 评分 距离
A 60 0.1
B 70 0.2
C 20 0.8
D 30 0.8
E 20 0.9
表4是传统的k-NN算法与表1获取的预测结果的对比表。
表4
算法 预测值
传统k近邻算法 40
改进k近邻算法 61
表4中传统k近邻算法与本发明实施例提供的改进k近邻算法比较,改进k近邻算法得到的预测值与期望值更接近。
由此可知,本发明实施例提供的用户资料预测方法将距离权重引入到k近邻算法中,提出了一种新的改进算法,并将其应用到用户资料补全的问题中,提升了预测的准确率和可解释性。
与上述方法对应的,本发明实施例还提供一种用户资料预测系统,如图2所示,该系统可以包括:获取单元210,确定单元220和选取单元230。
获取单元210用于对数据集合进行筛选,获取训练数据。
确定单元220用于根据训练数据的属性信息,确定数据向量。
选取单元230用于在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。
获取单元210还用于根据至少一个训练数据和距离值,获取待预测数据的缺失值。其中,训练数据为数据集合中样本数据的属性信息与样本数据的取值匹配的数据。
可选地,当待预测数据为分类型数据时,获取单元具体用于根据至少一个训练数据和距离值,获取至少一个训练数据的类别权重值。
选取单元230具体用于选取类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。
可选地,当待预测数据为分类型数据时,类别权重值的表达式可以表示为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
可选地,当待预测数据为数值型数据时,获取单元210具体用于根据至少一个训练数据和距离值,获取待预测数据的预测值。
其中,待预测值的表达式可以表示为:
xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与待预测数据的距离。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器、闪存、只读存储器、可擦除可编程只读寄存器(英文:erasableprogrammable read-only memory,EPROM)存储器、电可擦可编程只读存储器存储器(英文:electrically erasable programmable read-only memory,EEPROM)、硬盘、只读光盘(英文:compact disc read-only memory,CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。当然,处理器和存储介质也可以作为分立组件存在于用户设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种用户资料预测方法,其特征在于,包括以下步骤:
对数据集合进行筛选,获取训练数据;
根据所述训练数据的属性信息,确定数据向量;
在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;
根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值。
2.根据权利要求1所述的方法,其特征在于,所述训练数据为所述数据集合中样本数据的属性信息与所述样本数据的取值匹配的数据。
3.根据权利要求1所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:
根据所述至少一个训练数据和所述距离值,获取所述至少一个训练数据的类别权重值;
选取所述类别权重值中最大的类别权重值所对应的类别为待预测值。
4.根据权利要求3所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
5.根据权利要求1所述的方法,其特征在于,当所述待预测数据为数值型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:
根据至少一个训练数据和距离值,获取待预测数据的预测值。
6.根据权利要求5所述的方法,其特征在于,所述预测值的表达式为:
其中,xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与所述待预测数据的距离。
7.一种用户资料预测系统,其特征在于,所述系统包括:
获取单元,用于对数据集合进行筛选,获取训练数据;
确定单元,用于根据所述训练数据的属性信息,确定数据向量;
选取单元,用于在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;
所述获取单元,还用于根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值;
其中,所述训练数据为所述数据集合中样本数据的属性信息与所述样本数据的取值匹配的数据。
8.根据权利要求7所述的系统,其特征在于,当所述待预测数据为分类型数据时,所述获取单元,具体用于根据所述至少一个训练数据和所述距离值,获取所述至少一个训练数据的类别权重值;
所述选取单元,用于选取所述类别权重值中最大的类别权重值所对应的类别为待预测数据的类别。
9.根据权利要求8所述的系统,其特征在于,当所述待预测数据为分类型数据时,所述类别权重值的表达式为:
预测值表达式为:
其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。
10.根据权利要求7所述的系统,其特征在于,当所述待预测数据为数值型数据时,所述获取单元,具体用于根据所述至少一个训练数据和所述距离值,获取所述待预测数据的预测值;
其中,所述预测值的表达式为:
xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数值,di表示第i个数据与所述待预测数据的距离。
CN201611236207.4A 2016-12-28 2016-12-28 一种用户资料预测方法和系统 Pending CN108256538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236207.4A CN108256538A (zh) 2016-12-28 2016-12-28 一种用户资料预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236207.4A CN108256538A (zh) 2016-12-28 2016-12-28 一种用户资料预测方法和系统

Publications (1)

Publication Number Publication Date
CN108256538A true CN108256538A (zh) 2018-07-06

Family

ID=62720314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236207.4A Pending CN108256538A (zh) 2016-12-28 2016-12-28 一种用户资料预测方法和系统

Country Status (1)

Country Link
CN (1) CN108256538A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783481A (zh) * 2018-12-19 2019-05-21 新华三大数据技术有限公司 数据处理方法和装置
CN109933582A (zh) * 2019-03-11 2019-06-25 国家电网有限公司 数据处理方法及装置
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110274995A (zh) * 2019-06-18 2019-09-24 深圳市美兆环境股份有限公司 填充数据的确定方法、装置及计算机设备
CN110968887A (zh) * 2018-09-28 2020-04-07 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
CN111259916A (zh) * 2020-02-12 2020-06-09 东华大学 一种标签缺失情况下的低秩投影特征提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统
CN106203530A (zh) * 2016-07-21 2016-12-07 长安大学 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统
CN106203530A (zh) * 2016-07-21 2016-12-07 长安大学 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANG YIN ZHOU等: "《Improving nearest neighbor classification with cam weighted distance》", 《PATTERN RECOGNITION SOCIETY》 *
汤国安等: "《地理信息系统教程》", 30 April 2007 *
郭躬德等: "《近邻分类方法及其应用 上》", 31 December 2013 *
陈伟: "《数据清理关键技术及其软件平台的研究与应用》", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968887A (zh) * 2018-09-28 2020-04-07 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
CN109783481A (zh) * 2018-12-19 2019-05-21 新华三大数据技术有限公司 数据处理方法和装置
CN109933582A (zh) * 2019-03-11 2019-06-25 国家电网有限公司 数据处理方法及装置
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110097920B (zh) * 2019-04-10 2022-09-20 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110274995A (zh) * 2019-06-18 2019-09-24 深圳市美兆环境股份有限公司 填充数据的确定方法、装置及计算机设备
CN111259916A (zh) * 2020-02-12 2020-06-09 东华大学 一种标签缺失情况下的低秩投影特征提取方法

Similar Documents

Publication Publication Date Title
CN108256538A (zh) 一种用户资料预测方法和系统
JP6725700B2 (ja) 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体
Anderson et al. Identifying clusters in Bayesian disease mapping
JP5440394B2 (ja) 評価予測装置、評価予測方法、及びプログラム
Tsinaslanidis et al. A prediction scheme using perceptually important points and dynamic time warping
CN111199474B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
JP6340428B2 (ja) ビジネス関係ネットワークの発見、及び関係の関連性の評価
Guo Local entropy map: A nonparametric approach to detecting spatially varying multivariate relationships
CN107037980A (zh) 时间序列数据的多表示存储
US11494860B2 (en) Systems and methods for implementing search and recommendation tools for attorney selection
US10628433B2 (en) Low memory sampling-based estimation of distinct elements and deduplication
US9330160B2 (en) Software application complexity analysis
Ramezanian Estimation of the profiles in posteriori ELECTRE TRI: A mathematical programming model
Olominu et al. Application of time series analysis to predict reservoir production performance
Kakoudakis et al. Pipeline failure prediction in water distribution networks using weather conditions as explanatory factors
Kargah-Ostadi et al. Developing performance prediction models for pavement management systems in local governments in absence of age data
Siddalingappa et al. Anomaly detection on medical images using autoencoder and convolutional neural network
Chakraborty et al. Using the “Hidden” genome to improve classification of cancer types
Chen et al. Swarm-inspired data-driven approach for housing market segmentation: a case study of Taipei city
Margaris et al. Improving collaborative filtering’s rating prediction coverage in sparse datasets through the introduction of virtual near neighbors
US20230087204A1 (en) Systems and methods to screen a predictive model for risks of the predictive model
Jaspers et al. Application of the Vertex Exchange Method to estimate a semi-parametric mixture model for the MIC density of Escherichia coli isolates tested for susceptibility against ampicillin
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법
Claeskens Focused estimation and model averaging with penalization methods: an overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication