CN115828174A - 模型构建方法、装置、设备、介质和产品 - Google Patents

模型构建方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN115828174A
CN115828174A CN202211555885.2A CN202211555885A CN115828174A CN 115828174 A CN115828174 A CN 115828174A CN 202211555885 A CN202211555885 A CN 202211555885A CN 115828174 A CN115828174 A CN 115828174A
Authority
CN
China
Prior art keywords
hash
user
data
feature data
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211555885.2A
Other languages
English (en)
Inventor
王倩
臧思聪
李冰
景昕
杨猛
陶涛
徐海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202211555885.2A priority Critical patent/CN115828174A/zh
Publication of CN115828174A publication Critical patent/CN115828174A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种模型构建方法、装置、设备、介质和产品。该模型构建方法包括:获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个所述特征数据为所述用户投诉的业务所对应的数据;基于各用户的所述特征数据,以及距离哈希函数,得到哈希函数族;基于所述哈希函数族,构建哈希树;基于多个哈希树,构建距离哈希森林;以基于所述距离哈希森林预测待检测用户是否为待投诉用户。根据本申请实施例,无需确定该用户是否为投诉用户,这样可不需要对投诉用户添加标签,实现无监督学习,得到预测待投诉用户的模型,提升了投诉用户预测的精确性。

Description

模型构建方法、装置、设备、介质和产品
技术领域
本申请涉及计算机技术领域,具体涉及一种模型构建方法、装置、设备、介质和产品。
背景技术
现如今,电信运营商业务全面运营,电信运营商业务的经营从关注用户数量的增长逐步转变为关注用户质量的提高。用户投诉是影响用户质量的主要原因。
目前在预测用户是否会进行投诉时,采用的都是有监督模型来进行预测,这种有监督模型需要事先知道用户是否发生投诉的标签,数据都是基于历史数据,如此导致模型一般只能识别历史数据中的投诉行为,对于实际生产中新的数据中的投诉行为就难以预测,导致精确率不高。
发明内容
本申请实施例的目的是提供一种模型构建方法、装置、设备、介质和产品,以构建出无监督的投诉用户预测模型,提升了投诉用户预测的精确性。
本申请的技术方案如下:
第一方面,提供了一种模型构建方法,该方法包括:
获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个特征数据为用户投诉的业务所对应的数据;
基于各用户的特征数据,以及距离哈希函数,得到哈希函数族;
基于哈希函数族,构建哈希树;
基于多个哈希树,构建距离哈希森林;以基于距离哈希森林预测待检测用户是否为待投诉用户。
在一个可能实现的实施例中,在获取多个用户的特征数据之后,方法还包括:
针对每个用户的多个特征数据,对各特征数据进行预处理,得到目标特征数据;
基于各用户的特征数据,以及距离哈希函数,得到哈希函数族,包括:
基于目标特征数据,以及距离哈希函数,得到哈希函数族。
在一个可能实现的实施例中,对各用户的特征数据进行预处理,得到目标特征数据,包括:
针对每个用户的各特征数据执行如下操作,得到第一目标特征数据:
针对具有缺失值的第一特征数据,将第一特征数据删除;其中,第一特征数据为用于表征用户的属性特征的数据;
针对具有缺失值的第二特征数据,将第二特征数据利用预设数值进行填充;其中,第二特征数据用于表征用户定制的业务数据,以及用户的消费数据;
针对不合规的第三特征数据,将第三特征数据删除;其中,第三特征数据用于表征违背常规的数据;
针对不满足第一预设条件的第四特征数据,进行离散化处理;其中,第四特征数据包括消费涨幅,第一预设条件包括消费涨幅不为负值;
基于第一目标特征数据,确定目标特征数据。
在一个可能实现的实施例中,基于第一目标特征数据,确定目标特征数据,包括:
基于卡方检测,从第一目标特征数据中筛选出预设数量的第二目标特征数据;
对第二目标特征数据进行频次统计;
对频次超过预设频次阈值的第二目标特征数据进行对数变换,得到目标特征数据。
在一个可能实现的实施例中,基于各用户的特征数据,以及距离哈希函数,得到哈希函数族,包括:
将各用户划分为N个子样本;其中,每个子样本中具有M个用户,M和N均为正整数;
针对每个子样本,计算每个子样本中M个用户之间的哈希线投影距离;
基于哈希线投影距离,将子样本中的M个用户放入不同的哈希桶中;
基于不同的哈希桶,得到哈希函数族。
在一个可能实现的实施例中,计算每个子样本中M个用户之间的哈希线投影距离,包括:
从M个用户中选取出两个目标用户;其中,目标用户为M个用户中的任意两个用户;
将子样本输入至距离哈希函数中,得到子样本中的M个用户中各用户与目标用户之间的哈希线投影距离。
在一个可能实现的实施例中,基于哈希函数族,构建哈希树,包括:
从哈希函数族中选取P组哈希桶;
针对哈希函数族中的每个哈希桶,计算哈希桶中各用户对应的哈希线投影距离;
将具有相同哈希线投影距离的用户,确定为一个子数据类;
遍历每个子数据类,对具有多个用户的子数据类进行哈希计算,直至的子数据类满足第二预设条件,生成哈希树;其中,第二预设条件包括:子数据类中只有一个用户,或子数据类对应的哈希树的高度大于或等于预设高度。
在一个可能实现的实施例中,从哈希函数族中选取P组哈希桶,包括:
确定哈希函数族中每个哈希桶的分布熵;
从各分布熵按照从高到低的顺序进行排序;
将排序中位序前P个分布熵对应的哈希桶选取出来。
在一个可能实现的实施例中,在基于多个哈希树,构建距离哈希森林之后,方法还包括:
获取待预测用户的待处理特征数据;
将待处理特征数据输入至哈希森林,得到待预测用户为待投诉用户的分数;
在分数大于预设分数阈值的情况下,确定用户为待投诉用户。
第二方面,提供了一种模型构建装置,该装置包括:
获取模块,用于获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个特征数据为用于表征用户为不知情定制投诉用户的数据;
确定模块,用于基于各用户的特征数据,以及距离哈希函数,得到哈希函数族;
构建模块,用于基于哈希函数族,构建哈希树;
构建模块,用于基于多个哈希树,构建距离哈希森林;以基于距离哈希森林预测待检测用户是否为待投诉用户。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现本申请实施例任一所述的模型构建方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现本申请实施例任一所述的模型构建方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本申请实施例任一所述的模型构建方法的步骤。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请的实施例中,通过获取的多个用户投诉的业务所对应的特征数据,以及距离哈希函数,得到哈希函数族,基于哈希函数族,构建哈希树,基于多个哈希树,构建距离哈希森林,以基于距离哈希森林预测待检测用户是否为不知情定制业务投诉用户,如此获取数据时是获取用户的业务特征数据,无需确定该用户是否为投诉用户,这样可不需要对投诉用户添加标签,实现无监督学习,得到预测待投诉用户的模型,进而提升了投诉用户预测的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1是本申请第一方面实施例涉及的模型构建方法的流程示意图之一;
图2是本申请第一方面实施例涉及的模型构建方法的流程示意图之二;
图3是本申请第二方面实施例提供的一种模型构建装置的结构示意图;
图4是本申请第三方面实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的例子。
如背景技术部分所述,现有技术中存在对于实际生产中新的数据中的投诉行为就难以预测,导致精确率不高的问题,为了解决上述问题,本申请实施例提供了一种模型构建方法、装置、设备、介质和产品,通过获取的多个用户投诉的业务所对应的特征数据,以及距离哈希函数,得到哈希函数族,基于哈希函数族,构建哈希树,基于多个哈希树,构建距离哈希森林,以基于距离哈希森林预测待检测用户是否为不知情定制业务投诉用户,如此获取数据时是获取用户的业务特征数据,无需确定该用户是否为投诉用户,这样可不需要对投诉用户添加标签,实现无监督学习,得到预测待投诉用户的模型,进而提升了投诉用户预测的精确性。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的模型构建方法进行详细地说明。
图1示出了本申请一个实施例提供的模型构建方法的流程示意图。
如图1所示,本申请实施例提供的模型构建方法包括以下步骤:
S110、获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个特征数据为用户投诉的业务所对应的数据。
这里,用户可以是多个地区的用户,特征数据可以是不同时间的特征数据,多个用户的特征数据可以是多个地区的用户在不同时间的特征数据。特征的选取可以是前期设定的,也可以是在使用过程中随机选取的,每个用户具有多个特征数据。用户投诉的业务可以是任何业务,可以包括不知情定制业务。
作为一个示例,获取10900省份的7、8、9三个月份的全网数据,特征的选取可以是前期通过投诉溯源,定位某一订单为不知情定制,查看不知情定制用户与正常用户的特征区别,选取如下的30个特征,获取特征数据:
Figure BDA0003983310930000061
S120、基于各用户的特征数据,以及距离哈希函数,得到哈希函数族。
根据各用户的特征数据和距离哈希函数,将特征数据划分成多个类别,得到哈希函数族。
S130、基于哈希函数族,构建哈希树。
基于哈希组函数,递归划分特征数据,直至所有特征数据对应的用户都被隔离开,逐步生成哈希树,其中哈希树包括至少一个。
S140、基于多个哈希树,构建距离哈希森林;以基于距离哈希森林预测待检测用户是否为待投诉用户。
这里,距离哈希森林由多个孤立的哈希树构成。
这样,通过获取的多个用户投诉的业务所对应的特征数据,以及距离哈希函数,得到哈希函数族,基于哈希函数族,构建哈希树,基于多个哈希树,构建距离哈希森林,以基于距离哈希森林预测待检测用户是否为不知情定制业务投诉用户,如此获取数据时是获取用户的业务特征数据,无需确定该用户是否为投诉用户,这样可不需要对投诉用户添加标签,实现无监督学习,得到预测待投诉用户的模型,进而提升了投诉用户预测的精确性。
基于此,在一些实施例中,在上述S110之后,该方法还可以包括:
针对每个用户的多个特征数据,对各特征数据进行预处理,得到目标特征数据;
基于各用户的特征数据,以及距离哈希函数,得到哈希函数族,包括:
基于目标特征数据,以及距离哈希函数,得到哈希函数族。
其中,目标特征数据可以是对各特征数据进行预处理后所得到的数据。
在一些实施例中,对特征数据进行预处理具体的可以是对于无效的和不符合规定的数据进行删除处理。
在一些实施例中,对特征数据进行预处理具体的还可以是对于缺失值可进行填充处理,这里,填充值具体的可以是与该缺失值对应的平均值、最大值或最小值,具体的可以根据用户情况设定。
在一个示例中,获取了用户1、用户2和用户3这3个用户的年龄特征,若其中用户1和用户2的年龄均有对应的数值,用户3的年龄数值为空,则可利用用户2和用户3的年龄的平均值、最大值或最小值作为用户3的年龄。
这样,减小了无法使用的特征数据的干扰,进而提升了投诉用户预测的精确性。
基于此,在一些实施例中,对各用户的特征数据进行预处理,得到目标特征数据,可以包括:
针对每个用户的各特征数据执行如下操作,得到第一目标特征数据:
针对具有缺失值的第一特征数据,将第一特征数据删除;其中,第一特征数据为用于表征用户的属性特征的数据;
针对具有缺失值的第二特征数据,将第二特征数据利用预设数值进行填充;其中,第二特征数据用于表征用户定制的业务数据,以及用户的消费数据;
针对不合规的第三特征数据,将第三特征数据删除;其中,第三特征数据用于表征违背常规的数据;
针对不满足第一预设条件的第四特征数据,进行离散化处理;其中,第四特征数据包括消费涨幅,第一预设条件包括消费涨幅不为负值;
基于第一目标特征数据,确定目标特征数据。
其中,第一目标特征数据可以是对具有缺失值的第一特征数据进行删除后所得到的数据,还可以是对具有缺失值的第二特征数据利用预设数值进行填充后所得到的数据,还可以是对不合规的第三特征数据进行删除后所得到的数据,还可以是对不满足第一预设条件的第四特征数据进行离散化处理后所得到的数据。
这里,第一特征数据为用于表征用户的属性特征的数据,第二特征数据用于表征用户定制的业务数据,以及用户的消费数据,第三特征数据用于表征违背常规的数据,第四特征数据包括消费涨幅,第一预设条件包括消费涨幅不为负值。
在一些实施例中,对个用户的特征数据进行预处理,可以包括对于有缺失值的特征数据进行删除或填充处理,还可以包括对不符合常规的数据进行删除处理。
作为一个示例,针对具有缺失值的第一特征数据,将第一特征数据删除,其中,第一特征数据为用于表征用户的属性特征的数据,表征用户的属性特征的数据可以但不限于是用户年龄、用户状态和合计费用方差。
在另一个示例中,针对具有缺失值的第二特征数据,将第二特征数据利用预设数值进行填充;其中,第二特征数据用于表征用户定制的业务数据,以及用户的消费数据,第二特征数据可以但不限于是总费用、本月资费费用、上个月资费费用、消费增幅,对于第二特征数据可以填充为0。
在另一个示例中,针对不合规的第三特征数据,将第三特征数据删除;其中,第三特征数据用于表征违背常规的数据,第三特征数据可以但不限于是年龄为负值或超过100随的用户对应的特征数据,在这种情况下,删除该用户所有的特征数据。
在一些实施例中,得到的第一目标特征数据是经过规范化处理的特征数据还是可能出现负值,这里,可以对存在负值的特征数据进一步处理。
作为一个示例,对于消费增幅存在负值,进行离散化处理转换为离散型数据,分为三类,包括消费增幅升高、降低和不变,对分类变量进行标记编码器LabelEncoder变换,将所有分类变量用数字表示(例如消费增幅升高用0表示,不变用1表示,降低用2表示)。
这样,对特征数据进行了规范处理,提高了模型的准确性,进而提升了投诉用户预测的精确性。
基于此,在一些实施例中,基于第一目标特征数据,确定目标特征数据,包括:
基于卡方检测,从第一目标特征数据中筛选出预设数量的第二目标特征数据;
对第二目标特征数据进行频次统计;
对频次超过预设频次阈值的第二目标特征数据进行对数变换,得到目标特征数据。
其中,预设数量可以是预先设置的从第一目标特征数据中筛选出的特征数据的数量。
第二目标特征数据可以是基于卡方检测,从第一目标特征数据中筛选出预设数量的数据。
预设频次阈值可以是根据特征进行设定的频次阈值,可以根据特征的不同设置不同的频次阈值。
在一些实施例中,进行特征分析后发现大多特征数据与是否投诉的相关性为0,部分还是负相关,这里,可以从第一目标特征数据中筛选出预设数量的第二目标特征数据。
在一些实施例中,采用卡方检验进行特征选择。
作为一个示例,采用卡方检验从30个特征数据中选取11个特征数据进行模型训练,这11个特征数据包括年龄、本月办理业务总金额、投诉产品码表匹配个数、近3个月产品投诉次数、近1个月产品退订次数、消费增幅、用户近6个月投诉次数、近3个月内10086拨打次数、是否魔百和用户、订购后是否使用、是否夜间办理。
在一些实施例中,对第二目标特征数据进行频次统计,需要说明的是,只对有频次的特征数据进行统计。
在一些实施例中,对于特征存在拖尾数据的情况,对频次超过预设频次阈值的第二目标特征数据进行对数变换,得到目标特征数据。拖尾数据是至某些字段存在极大值。
作为一个示例,“近6个月的投诉次数”这一特征数据为10的数量占比较大,其他投诉次数均在0~3之间,对于这种情况,将近6个月的投诉次数进行对数变换。
这样,进一步规范了特征数据,提高了模型的准确性,进而提升了投诉用户预测的精确性。
基于此,在一些实施例中,上述S120具体可以包括:
将各用户划分为N个子样本;其中,每个子样本中具有M个用户,M和N均为正整数;
针对每个子样本,计算每个子样本中M个用户之间的哈希线投影距离;
基于哈希线投影距离,将子样本中的M个用户放入不同的哈希桶中;
基于不同的哈希桶,得到哈希函数族。
在一些实施例中,将各用户划分为N个子样本,各用户可以划分至任意子样本中,每个子样本具有M个用户。
在一些实施例中,将任意空间中的特征数据映射到实数空间中定义的一条线上,根据这条线上的特征数据计算每个子样本中M个用户之间的哈希线投影距离。
作为一个示例,基于哈希线投影距离,将子样本中的M个用户放入不同的哈希桶中,因为距离哈希算法(Distance Basedhashing,DBH)具有平衡的哈希表,这使得它进行最近邻检索时,映射的结果只有0和1两个哈希桶,因此只能将数据分成两个部分,其原始的哈希函数族公式(1)如下所示:
Figure BDA0003983310930000101
其中,
Figure BDA0003983310930000102
表示哈希线投影距离在0这个哈希桶的范围内。
对于原始的DBH函数,其会将数据散列到两个大小大致相等的桶中,但这样只能划分为两类,为了更准确更细的将数据分成不同份,来查找异常数据,因此选择对该函数进行优化,采用不重复的子样本数量w来划分散列通,即将不同的哈希线投影距离分成w份,形成新的哈希函数族,计算公式(2)如下:
Figure BDA0003983310930000111
其中,
Figure BDA0003983310930000112
为距离哈希函数,x的投影在w形成的区间内,r表示的是窗口的大小
作为一个示例,有10个样本,选择5个作为子样本,在距离哈希函数映射后,相似的数据的哈希值相似就会被散列到同一个桶中,其他不同的就会分到不同桶中,例如,其中2个子样本哈希线投影距离相同,另外2个子样本哈希线投影距离相同,剩下一个子样本哈希线投影距离与前两个都不一样,因此,这里w就是3,这里的r是根据数据量自己定义的。
这样,能够将M个用户放入多个不同的哈希桶中,得到哈希函数族。
基于此,在一些实施例中,计算每个子样本中M个用户之间的哈希线投影距离,可以包括:
从M个用户中选取出两个目标用户;其中,目标用户为M个用户中的任意两个用户;
将子样本输入至距离哈希函数中,得到子样本中的M个用户中各用户与目标用户之间的哈希线投影距离。
在一些实施例中,利用如下距离哈希函数公式(3)计算每个子样本中M个用户之间的哈希线投影距离:
Figure BDA0003983310930000113
其中,x表示所有子样本,x1,x2是所有样本中任意选的两个样本点,D(x,x1)表示x点与x1点间的欧式距离,D(x1,x2)表示x1点与x2点间的欧式距离,D(x,x2)表示x点与x2点间的欧式距离。
在本申请的提供的实施例中,能够使用距离哈希函数计算子样本中的M个用户中各用户与目标用户之间的哈希线投影距离。
基于此,在一些实施例中,上述S130具体可以包括:
从哈希函数族中选取P组哈希桶;
针对哈希函数族中的每个哈希桶,计算哈希桶中各用户对应的哈希线投影距离;
将具有相同哈希线投影距离的用户,确定为一个子数据类;
遍历每个子数据类,对具有多个用户的子数据类进行哈希计算,直至的子数据类满足第二预设条件,生成哈希树;其中,第二预设条件包括:子数据类中只有一个用户,或子数据类对应的哈希树的高度大于或等于预设高度。
在一些实施例中,从哈希函数族中随机选取P组哈希桶,其中每组哈希桶由K个特征数据组成,K个特征数据可以是从所有特征数据中随机选取的。每组哈希桶所对应的K的大小是一样的,但是选取的特征数据可以是不一样的,每组哈希函数所对应的K的大小是一样的,但是选取的特征数据可以是不一样的,这里的哈希桶和哈希函数是相对应的。
作为一个示例,选取3个哈希桶,每组中均包含4个特征数据,每个哈希桶中的4个特征数据可以相同,也可以不同,特征数据的选取是随机的。
在一些实施例中,利用上述距离哈希函数公式(3)计算哈希桶中各用户对应的哈希线投影距离。
在一些实施例中,对于每组哈希桶中哈希线投影距离相同的用户,确定为一个子数据类。
在一些实施例中,遍历每个数据类,对具有多个用户的子数据类进行哈希计算,直至所有的叶子节点都只有一个用户,或者子数据类对应的哈希树已经达到指定高度。
这样,从哈希组函数中选取哈希桶,基于每组哈希桶中哈希线投影距离划分子数据类,将所有特征数据对应的用户都被隔离开,逐步生成了哈希树。
基于此,在一些实施例中,从哈希函数族中选取P组哈希桶,包括:
确定哈希函数族中每个哈希桶的分布熵;
从各分布熵按照从高到低的顺序进行排序;
将排序中位序前P个分布熵对应的哈希桶选取出来。
在一些实施例中,计算哈希函数族中每个哈希桶的分布熵,计算公式(4)如下:
Figure BDA0003983310930000121
其中,Nr表示第r个桶中的用户的个数,m表示不为空的桶的数量。
选取其中分布熵较高的一部分哈希桶。
这样,通过分布熵的计算选取哈希桶,提高了检索性能以及异常检测的效率。
在一些实施例中,如图2,在上述S140之后,方法还包括:
S150、获取待预测用户的待处理特征数据。
其中,待预测用户可以是利用训练好的模型进行预测的预测样本,具体的该待预测用户是不具有标签的。
待处理特征数据可以是需要使用模型进行处理的预测样本的特征数据。
S160、将待处理特征数据输入至哈希森林,得到待预测用户为待投诉用户的分数。
将待处理特征数据输入至哈希森林,需要对其综合计算每棵树的结果,通过公式(5)待预测用户为待投诉用户的分数:
Figure BDA0003983310930000131
其中,t为哈希树的数量,hi(x)为待预测用户在每棵树的高度,
Figure BDA0003983310930000132
为路径长度。
S170、在分数大于预设分数阈值的情况下,确定用户为待投诉用户。
其中,预设分数阈值可以是对每棵树施加的一个高度限制,可以根据实际情况进行设定。
在一些实施例中,异常用户倾向于出现在较短的分支中,对每棵树施加一个高度限制,在分数大于预设分数阈值的情况下,确定用户为待投诉用户,这里预设分数阈值为施加的高度限制,通过公式(6)确定:
Figure BDA0003983310930000133
其中,
Figure BDA0003983310930000134
表示待预测用户的数量,w表示不重复的待预测用户数量,γ是欧拉常量。
这样,针对训练完成的模型,将新用户的历史特征数据输入之模型中,输出结构,验证模型的精确率和召回率。
作为一个示例,针对模型训练效果使用三种特征数据作为数据集进行验证:
数据集A:包括第一目标特征数据;
数据集B:包括第二目标特征数据;
数据集C:包括对数转换后的第二目标特征数据。
设置样本数量为421000,其中正常样本为420600,投诉样本为400,使用多个算法进行训练,使用的算法以及训练结果如下:
Figure BDA0003983310930000135
Figure BDA0003983310930000141
其中,查全率检测出来的正确的投诉样本数与训练所有的投诉样本(这里是400)的之比。
在另一个示例中,使用上述算法针对上述数据集进行预测,并结合真是标签,进行模型评估,得出如下混淆矩阵:
Figure BDA0003983310930000142
在混淆矩阵中,例如对于数据集A,原始全部样本的正例是558777+34=558811,其中预测样本为正例558777,预测样本为投诉有34例;原全部样本中的投诉有118+182=300,其中预测样本为正例有118,预测样本为投诉有182。
经验证,本申请提供的实施例中,模型测试结构在数据集C上查准率达到89%,查全率达到62%,效果比较理想的。
需要说明的是,本申请实施例提供的模型构建方法,执行主体可以为模型构建装置,或者该模型构建装置中的用于执行模型构建方法的控制模块。
基于与上述的模型构建方法相同的发明构思,本申请还提供了一种模型构建装置。下面结合图3对本申请实施例提供的模型构建装置进行详细说明。
图3是根据一示例性实施例示出的一种模型构建装置的结构示意图。
如图3所示,该模型构建装置300可以包括:
获取模块310,用于获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个特征数据为用户投诉的业务所对应的数据;
确定模块320,用于基于各用户的特征数据,以及距离哈希函数,得到哈希函数族;
构建模块330,用于基于哈希函数族,构建哈希树;
构建模块330,还用于基于多个哈希树,构建距离哈希森林;以基于距离哈希森林预测待检测用户是否为待投诉用户。
基于此,在一些实施例中,装置300还包括:
数据处理模块,用于在获取多个用户的特征数据之后,针对每个用户的多个特征数据,对各特征数据进行预处理,得到目标特征数据;
确定模块320,还用于基于各用户的特征数据,以及距离哈希函数,得到哈希函数族,可以包括:
基于目标特征数据,以及距离哈希函数,得到哈希函数族。
基于此,在一些实施例中,数据处理模块具体可以包括:
第一目标特征数据确定子模块,用于针对每个用户的各特征数据执行如下操作,得到第一目标特征数据:
针对具有缺失值的第一特征数据,将第一特征数据删除;其中,第一特征数据为用于表征用户的属性特征的数据;
针对具有缺失值的第二特征数据,将第二特征数据利用预设数值进行填充;其中,第二特征数据用于表征用户定制的业务数据,以及用户的消费数据;
针对不合规的第三特征数据,将第三特征数据删除;其中,第三特征数据用于表征违背常规的数据;
针对不满足第一预设条件的第四特征数据,进行离散化处理;其中,第四特征数据包括消费涨幅,第一预设条件包括消费涨幅不为负值;
目标特征数据确定子模块,用于基于第一目标特征数据,确定目标特征数据。
基于此,在一些实施例中,目标特征数据确定子模块具体可以包括:
筛选单元,用于基于卡方检测,从第一目标特征数据中筛选出预设数量的第二目标特征数据;
统计单元,用于对第二目标特征数据进行频次统计;
对数变换单元,用于对频次超过预设频次阈值的第二目标特征数据进行对数变换,得到目标特征数据。
基于此,在一些实施例中,确定模块320具体可以包括:
划分子模块,用于将各用户划分为N个子样本;其中,每个子样本中具有M个用户,M和N均为正整数;
计算子模块,用于针对每个子样本,计算每个子样本中M个用户之间的哈希线投影距离;
哈希桶放置子模块,用于基于哈希线投影距离,将子样本中的M个用户放入不同的哈希桶中;
哈希函数族确定子模块,用于基于不同的哈希桶,得到哈希函数族。
基于此,在一些实施例中,计算子模块具体可以包括:
选取单元,用于从M个用户中选取出两个目标用户;其中,目标用户为M个用户中的任意两个用户;
距离确定单元,用于将子样本输入至距离哈希函数中,得到子样本中的M个用户中各用户与目标用户之间的哈希线投影距离。
基于此,在一些实施例中,构建模块330具体可以包括:
哈希桶选取子模块,用于从哈希函数族中选取P组哈希桶;
距离计算子模块,用于针对哈希函数族中的每个哈希桶,计算哈希桶中各用户对应的哈希线投影距离;
子数据类确定子模块,用于将具有相同哈希线投影距离的用户,确定为一个子数据类;
哈希树生成子模块,用于遍历每个子数据类,对具有多个用户的子数据类进行哈希计算,直至的子数据类满足第二预设条件,生成哈希树;其中,第二预设条件包括:子数据类中只有一个用户,或子数据类对应的哈希树的高度大于或等于预设高度。
基于此,在一些实施例中,哈希桶选取子模块具体可以包括:
分布熵确定单元,用于确定哈希函数族中每个哈希桶的分布熵;
排序单元,用于从各分布熵按照从高到低的顺序进行排序;
对应选取单元,用于将排序中位序前P个分布熵对应的哈希桶选取出来。
基于此,在一些实施例中,装置300还包括:
获取模块310,还用于在基于多个哈希树,构建距离哈希森林之后,获取待预测用户的待处理特征数据;
确定模块320,还用于将待处理特征数据输入至哈希森林,得到待预测用户为待投诉用户的分数;
确定模块320,还用于在分数大于预设分数阈值的情况下,确定用户为待投诉用户。
本申请实施例提供的模型构建装置,可以用于执行上述各方法实施例提供的模型构建方法,其实现原理和技术效果类似,为简介起见,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。
图4示出了本申请实施例提供的模型构建设备的硬件结构示意图。
在模型构建设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。
存储器可包括只读存储器(Read Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种模型构建方法。
在一个示例中,模型构建设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将模型构建设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(IndustryStandard Architecture,ISA)总线、无限带宽互连、低引脚数(Linear PredictiveCoding,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PeripheralComponent Interconnect-X,PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,SATA)总线、视频电子标准协会局部(VESA Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。该电子设备可以执行本发明实施例中的模型构建方法,从而实现图1和图2描述的模型构建方法。
另外,结合上述实施例中的模型构建方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种模型构建方法。
本申请还提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行实现上述任意一种模型构建方法实施例的各个过程。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

Claims (13)

1.一种模型构建方法,其特征在于,所述方法包括:
获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个所述特征数据为所述用户投诉的业务所对应的数据;
基于各用户的所述特征数据,以及距离哈希函数,得到哈希函数族;
基于所述哈希函数族,构建哈希树;
基于多个哈希树,构建距离哈希森林;以基于所述距离哈希森林预测待检测用户是否为待投诉用户。
2.根据权利要求1所述的方法,其特征在于,在所述获取多个用户的特征数据之后,所述方法还包括:
针对每个用户的多个所述特征数据,对各所述特征数据进行预处理,得到目标特征数据;
所述基于各用户的所述特征数据,以及距离哈希函数,得到哈希函数族,包括:
基于目标特征数据,以及距离哈希函数,得到哈希函数族。
3.根据权利要求2所述的方法,其特征在于,所述对各用户的所述特征数据进行预处理,得到目标特征数据,包括:
针对每个用户的各所述特征数据执行如下操作,得到第一目标特征数据:
针对具有缺失值的第一特征数据,将所述第一特征数据删除;其中,所述第一特征数据为用于表征所述用户的属性特征的数据;
针对具有缺失值的第二特征数据,将所述第二特征数据利用预设数值进行填充;其中,所述第二特征数据用于表征所述用户定制的业务数据,以及所述用户的消费数据;
针对不合规的第三特征数据,将所述第三特征数据删除;其中,所述第三特征数据用于表征违背常规的数据;
针对不满足第一预设条件的第四特征数据,进行离散化处理;其中,所述第四特征数据包括消费涨幅,所述第一预设条件包括消费涨幅不为负值;
基于所述第一目标特征数据,确定目标特征数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一目标特征数据,确定目标特征数据,包括:
基于卡方检测,从所述第一目标特征数据中筛选出预设数量的第二目标特征数据;
对所述第二目标特征数据进行频次统计;
对频次超过预设频次阈值的所述第二目标特征数据进行对数变换,得到目标特征数据。
5.根据权利要求1所述的方法,其特征在于,所述基于各用户的所述特征数据,以及距离哈希函数,得到哈希函数族,包括:
将各用户划分为N个子样本;其中,每个子样本中具有M个用户,M和N均为正整数;
针对每个子样本,计算每个子样本中M个用户之间的哈希线投影距离;
基于所述哈希线投影距离,将所述子样本中的M个用户放入不同的哈希桶中;
基于不同的哈希桶,得到哈希函数族。
6.根据权利要求5所述的方法,其特征在于,所述计算每个子样本中M个用户之间的哈希线投影距离,包括:
从所述M个用户中选取出两个目标用户;其中,所述目标用户为所述M个用户中的任意两个用户;
将所述子样本输入至距离哈希函数中,得到所述子样本中的M个用户中各用户与所述目标用户之间的哈希线投影距离。
7.根据权利要求1所述的方法,其特征在于,所述基于所述哈希函数族,构建哈希树,包括:
从所述哈希函数族中选取P组哈希桶;
针对所述哈希函数族中的每个哈希桶,计算所述哈希桶中各用户对应的哈希线投影距离;
将具有相同哈希线投影距离的用户,确定为一个子数据类;
遍历每个子数据类,对具有多个用户的子数据类进行哈希计算,直至所述的子数据类满足第二预设条件,生成哈希树;其中,所述第二预设条件包括:所述子数据类中只有一个用户,或所述子数据类对应的哈希树的高度大于或等于预设高度。
8.根据权利要求7所述的方法,其特征在于,所述从所述哈希函数族中选取P组哈希桶,包括:
确定所述哈希函数族中每个哈希桶的分布熵;
从各所述分布熵按照从高到低的顺序进行排序;
将所述排序中位序前P个分布熵对应的哈希桶选取出来。
9.根据权利要求1所述的方法,其特征在于,在所述基于多个哈希树,构建距离哈希森林之后,所述方法还包括:
获取待预测用户的待处理特征数据;
将所述待处理特征数据输入至所述哈希森林,得到所述待预测用户为待投诉用户的分数;
在所述分数大于预设分数阈值的情况下,确定所述用户为待投诉用户。
10.一种模型构建装置,其特征在于,所述装置包括:
获取模块,用于获取多个用户的特征数据;其中,每个用户具有多个特征数据;每个所述特征数据为用于表征所述用户为不知情定制投诉用户的数据;
确定模块,用于基于各用户的所述特征数据,以及距离哈希函数,得到哈希函数族;
构建模块,用于基于所述哈希函数族,构建哈希树;
所述构建模块,还用于基于多个哈希树,构建距离哈希森林;以基于所述距离哈希森林预测待检测用户是否为待投诉用户。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-9任一所述的模型构建方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-9任一所述的模型构建方法的步骤。
13.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-9任一所述的模型构建方法的步骤。
CN202211555885.2A 2022-12-06 2022-12-06 模型构建方法、装置、设备、介质和产品 Pending CN115828174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211555885.2A CN115828174A (zh) 2022-12-06 2022-12-06 模型构建方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211555885.2A CN115828174A (zh) 2022-12-06 2022-12-06 模型构建方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
CN115828174A true CN115828174A (zh) 2023-03-21

Family

ID=85545191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211555885.2A Pending CN115828174A (zh) 2022-12-06 2022-12-06 模型构建方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN115828174A (zh)

Similar Documents

Publication Publication Date Title
WO2019222462A1 (en) Identification of sensitive data using machine learning
CN114422267B (zh) 流量检测方法、装置、设备及介质
CN113554049A (zh) 异网宽带用户识别的方法、装置、设备及存储介质
CN112016321B (zh) 用于邮件处理的方法、电子设备和存储介质
CN112926647A (zh) 模型训练方法、域名检测方法及装置
CN115828174A (zh) 模型构建方法、装置、设备、介质和产品
CN110661913A (zh) 一种用户排序方法、装置及电子设备
CN113111614B (zh) 类总线分组的确定方法、装置、设备及介质
CN112769540B (zh) 一种侧信道信息泄露的诊断方法、系统、设备及存储介质
CN111461118B (zh) 兴趣特征确定方法、装置、设备及存储介质
CN111046892A (zh) 异常识别方法和装置
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN113656354A (zh) 日志分类方法、系统、计算机设备和可读存储介质
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
CN113112102A (zh) 优先级确定方法、装置、设备及存储介质
CN114202494A (zh) 基于细胞分类模型分类细胞的方法、装置及设备
CN110708414A (zh) 一种电话号码的排序方法、装置及电子设备
CN110895564A (zh) 一种潜在客户数据处理方法和装置
CN114547133B (zh) 基于多维数据集的对话式归因分析方法、装置及设备
CN114241243B (zh) 图像分类模型的训练方法、装置、电子设备和存储介质
RU2663474C1 (ru) Способ поиска подобных файлов, размещённых на устройствах хранения данных
CN111510340B (zh) 访问请求检测方法、装置、电子设备及可读存储介质
CN115249098A (zh) 数据指标的确定方法、装置、设备及存储介质
CN116932345A (zh) 用户操作行为的检测方法和装置
CN114691950A (zh) 数据处理方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination