CN112887491A - 用户缺失信息获取方法和装置 - Google Patents

用户缺失信息获取方法和装置 Download PDF

Info

Publication number
CN112887491A
CN112887491A CN201911195983.8A CN201911195983A CN112887491A CN 112887491 A CN112887491 A CN 112887491A CN 201911195983 A CN201911195983 A CN 201911195983A CN 112887491 A CN112887491 A CN 112887491A
Authority
CN
China
Prior art keywords
user
information
missing
feature information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911195983.8A
Other languages
English (en)
Other versions
CN112887491B (zh
Inventor
尹丁艺
柯欣
潘波
孙丹丹
张振
李念
周文红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911195983.8A priority Critical patent/CN112887491B/zh
Publication of CN112887491A publication Critical patent/CN112887491A/zh
Application granted granted Critical
Publication of CN112887491B publication Critical patent/CN112887491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42136Administration or customisation of services
    • H04M3/42153Administration or customisation of services by subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42229Personal communication services, i.e. services related to one subscriber independent of his terminal and/or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开提出一种用户缺失信息获取方法和装置,涉及大数据技术领域。本公开的一种用户缺失信息获取方法包括:根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;处理结对特征信息,获取针对每条结对特征信息的比对结果;根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围;根据预定数量的用户缺失值范围确定异网用户的预测缺失值。通过这样的方法,能够利用海量数据提高用户缺失值确定的准确性。

Description

用户缺失信息获取方法和装置
技术领域
本公开涉及大数据技术领域,特别是一种用户缺失信息获取方法和装置。
背景技术
争夺异网用户一直是企业重要经营战略。随着市场竞争日益激烈,构建异网用户画像并开展针对性营销的需求日益旺盛。单个的运营商在构建的社交网络时,由于存在着大量的异网用户节点,而且这些异网用户几乎缺失全部的属性数据信息(如ARPU、MOU、流量等)。
相关技术中,在数据缺失时,缺失值填充主要采用插值拟合、回归预测等方式直接计算。这种方法需要大量被预测对象的历史数据,或者是与缺失值高度相关的其他行为数据信息。然而在被预测对象的各类数据缺失比较严重的情况下,难以满足传统方法的数据输入要求,致使无法计算填充缺失值或者计算结果非常不准确,因此也不适用于对异网用户节点的缺失数据填充。
发明内容
本公开的一个目的在于提出一种缺失数据填充方案,提高用户数据缺失值填充的准确度。
根据本公开的一个方面,提出一种用户缺失信息获取方法,包括:根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;处理结对特征信息,获取针对每条结对特征信息的比对结果;根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,属性值为与异网用户的缺失值对应的本网用户的已知值;根据预定数量的用户缺失值范围确定异网用户的预测缺失值。
在一些实施例中,比对结果包括异网用户的缺失值高于本网用户的属性值,或异网用户的缺失值低于本网用户缺失值。
在一些实施例中,根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息包括:根据通话记录获取与异网用户存在通话关系的本网用户;获取与异网用户存在通话关系的本网用户的特征信息;根据与异网用户存在通话关系的本网用户的特征信息,基于预定运算策略确定异网用户的预计特征信息。
在一些实施例中,根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息还包括:剔除干扰通话记录信息,干扰通话记录信息包括外卖、中介和骚扰电话的通话记录信息,以便根据剔除干扰通话记录信息后的通话记录获取与异网用户存在通话关系的本网用户。
在一些实施例中,根据预定数量的用户属性值范围确定异网用户的预测属性值包括:根据预定数量的用户属性值范围逼近缩小缺失值的上下限;在上下限的差距小于预定差距的情况下,将上下限取均值,作为预测缺失值。
在一些实施例中,用户缺失信息获取方法还包括在上下限的差距不小于预定差距的情况下,提取属性值在上下限范围内的预定数量的本网用户的特征信息,执行与异网用户的预计特征信息结对,生成并处理结对特征信息,更新用户缺失值范围和缺失值的上下限的操作;根据更新后的上下限执行判断上下限的差距是小于预定差距的操作。
在一些实施例中,根据预定数量的用户属性值范围确定异网用户的预测属性值还包括:获取用户属性值范围中的噪声数据;剔除噪声数据,根据剔除噪声数据后的用户属性值范围逼近缩小缺失值的上下限。
在一些实施例中,用户缺失信息获取方法还包括:基于本网用户的特征信息生成训练结对特征信息;将训练结对特征信息输入神经网络,获取针对训练结对特征信息的比对结果;根据本网用户的特征信息确定比对结果的评价值;根据评价值调整神经网络的参数和/或特征信息所使用的特征种类,直至评价值不小于预定评价值,以便采用神经网络处理结对特征信息。
通过这样的方法,能够先利用与异网用户存在通话关系的已知特征信息用户的特征来预计异网用户的特征,进而通过对预计特征和已知本网用户已知特征的处理,得到缺失值与本网用户对应的属性值之间的大小关系,基于大量数据得到用户缺失值的范围,确定预测缺失值,从而利用海量数据提高了用户缺失值确定的准确性。
根据本公开的一个方面,提出一种用户缺失信息获取装置,包括:异网用户特征获取单元,被配置为根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;结对特征获取单元,被配置为将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;比对结果确定单元,被配置为处理结对特征信息,获取针对每条结对特征信息的比对结果;缺失值范围确定单元,被配置为根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,属性值为与异网用户的缺失值对应的本网用户的已知值;缺失值确定单元,被配置为根据预定数量的用户缺失值范围确定异网用户的预测缺失值。
在一些实施例中,用户缺失信息获取装置还包括训练单元,被配置为:基于本网用户的特征信息生成训练结对特征信息;将训练结对特征信息输入神经网络,获取针对训练结对特征信息的比对结果;根据评价值调整神经网络的参数和/或特征信息所使用的特征种类,直至正确率不小于预定正确率,以便采用神经网络处理结对特征信息。
根据本公开的一个方面,提出一种用户缺失信息获取装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种用户缺失信息获取方法。
这样的装置能够先利用与异网用户存在通话关系的已知特征信息用户的特征来预计异网用户的特征,进而通过对预计特征和已知本网用户已知特征的处理,得到缺失值与本网用户对应的属性值之间的大小关系,基于大量数据得到用户缺失值的范围,确定预测缺失值,从而利用海量数据提高了用户缺失值确定的准确性。
根据本公开的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种用户缺失信息获取方法的步骤。
通过执行这样的计算机可读存储介质上的指令,能够先利用与异网用户存在通话关系的已知特征信息用户的特征来预计异网用户的特征,进而通过对预计特征与已知本网用户已知特征的处理,得到缺失值与本网用户对应的属性值之间的大小关系,基于大量数据得到用户缺失值的范围,进而确定预测缺失值,从而利用海量数据提高了用户缺失值确定的准确性。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的用户缺失信息获取方法的一些实施例的流程图。
图2为本公开的用户缺失信息获取方法的一些实施例的示意图。
图3为本公开的用户缺失信息获取装置的一些实施例的示意图。
图4为本公开的用户缺失信息获取装置的另一些实施例的示意图。
图5为本公开的用户缺失信息获取装置的又一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
为克服相关技术中数据缺失严重造成难以填充的问题,发明人提出“社交相似性”理论,认为同一社交圈中用户可传播属性值相似,从而可以通过用户的社交对象属性对其自身缺失属性值进行推测。另外,还提出一种“区间逼近”方法,将缺失值计算求解问题转化为分类比较问题,以满足“异网用户画像”这种被预测节点自身的历史及相关数据信息严重缺失的应用场景。
本公开的用户缺失信息获取方法的一些实施例的流程图如图1所示。
在步骤101中,根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息。
在一些实施例中,可以先根据通话记录获取与异网用户存在通话关系的本网用户;获取与异网用户存在通话关系的本网用户的特征信息;根据与异网用户存在通话关系的本网用户的特征信息,基于预定运算策略确定异网用户的预计特征信息。
在步骤102中,将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息。
在步骤103中,处理结对特征信息,获取针对每条结对特征信息的比对结果。在一些实施例中,比对结果包括异网用户的缺失值高于本网用户的属性值,或异网用户的缺失值低于本网用户缺失值。在一些实施例中,可以采用神经网络进行结对特征的处理。
在一些实施例中,可以根据已知的、本网用户的特征信息,预先对神经网络进行训练。在一些实施例中,可以基于本网用户的特征信息,生成经两个本网用户的特征信息结对的训练结对特征信息;将训练结对特征信息输入神经网络,进而获取针对训练结对特征信息的比对结果。由于本网用户的特征信息已知,因此根据本网用户的属性值确定比对结果的正确性。将多条训练结对特征信息输入神经网络,统计多条对训练结对特征信息进行处理后的评价值,在一些实施例中,评价值可以根据正确率、查准率、查全率等评价指标确定,根据评价值调整神经网络的参数,或者调整特征提取中所提取的特征种类,亦或调整上述两种信息,直至正确率不小于预定正确率。
在步骤104中,根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,属性值为与异网用户的缺失值对应的本网用户的已知值。在一些实施例中,缺失值可以为ARPU、MOU、流量等中的任意一种,则属性值即为本网用户已知的ARPU、MOU或流量。
在步骤105中,根据预定数量的用户缺失值范围确定异网用户的预测缺失值。
通过这样的方法,能够先利用与异网用户存在通话关系的已知特征信息用户的特征来预计异网用户的特征,进而通过对预计特征和已知本网用户已知特征进行处理,得到缺失值与本网用户对应的属性值之间的大小关系,基于大量数据和迭代对比得到用户缺失值的范围,进而确定预测缺失值,从而利用海量数据提高了用户缺失值确定的准确性。
在一些实施例中,在基于通话记录信息提取与异网用户有通话联系的本网用户之前,可以先对通话记录信息进行清洗,剔除干扰通话记录信息,干扰通话记录信息包括外卖、中介和骚扰电话的通话记录信息,以便根据剔除干扰通话记录信息后的通话记录获取与异网用户存在通话关系的本网用户。通过这样的方法,能够清洗掉干扰信息,基于社交相似性提高预计特征信息与异网用户的真实特征的接近程度,从而进一步提高缺失值预测的准确度。
在一些实施例中,基于步骤104中得到的针对每一条结对特征信息的用户缺失值范围,可以根据预定数量的用户属性值范围逼近缩小缺失值的上下限。在上下限的差距小于预定差距的情况下,将上下限取均值,作为预测缺失值。
通过这样的方法,能够在数据量逐渐增大的情况下逐渐提高准确度,且可以通过控制预定差距来控制精准度,从而在准确度和运算时间之间找到平衡,提高缺失值补充的灵活性和可控性。
在一些实施例中,若上下限的差距不小于预定差距,即上下限确定的精度还未达到预定要求,则可以提取属性值在当前上下限范围内的预定数量的本网用户的特征信息,重复执行与异网用户的预计特征信息结对等的操作,更新缺失值的上下限。
通过这样的方法,能够通过限定用于对比的本网用户的方式,使得缺失值的上下限有针对性的缩小,实现高效的提高预测精度。
在一些实施例中,可以在每次更新缺失值的上下限后进行判断精度是否达标的操作,若未达标,则急需执行提取属性值在当前上下限范围内的预定数量的本网用户的特征信息的操作,通过迭代保证上下限的差距小于预定差距,从而实现精度可控,进一步提高了缺失值预测的准确度。
在一些实施例中,由于误差的存在,可能存在基于单条结对特征信息得到的用户属性值范围错误。在一些实施例中,可以提取与其他数据发生矛盾的小概率数据,将其作为噪声数据提出,进而根据剔除噪声数据后的用户属性值范围逼近缩小缺失值的上下限。通过这样的方法,能够剔除噪声数据,避免噪声数据对预测的准确度造成负面影响。
本公开的用户缺失信息获取方法的一些实施例的示意图如图2所示。
在步骤1中,首先构建本网与异网用户之间的网络。通过用户通话数据进行外卖、中介、骚扰电话剔除等脏数据清洗构建本网+异网用户通话社交网络,其中,本网用户相关信息、使用行为已知,异网用户相关信息、使用行为等基本未知。
在步骤2中,对预定数量的已知用户提取其特征数据,特征数据可以包括其相关社交信息、社交圈中已知本网紧密联系人基础信息、行为分布三大类近100小类信息,构建特征。基于与异网用户有社交关系的已知用户的特征数据,形成异网用户的预测特征信息。将一个异网用户的预测特征信息,与n个已知用户的特征信息进行特征拼接,产出n条最终样本特征,其中,n为预定数量,正整数,在一些实施例中,n大于50。
在步骤3中,对于每个异网用户,将提取好的n条最终样本输入事先训练好的节点对属性大小判别模型进行属性大小判断,在一些实施例中,模型可采用梯度提升树GBDT、神经网络等方法,事先在已知节点对之间进行训练,产出n个属性值比较结果。图3中的属性值,如70、60、65,为对应的结对特征信息中本网用户的属性值,属性值为需要得到的异网用户的缺失值对应的本网用户已知值,例如,缺失值为异网用户的ARPU值,则属性值即为本网用户的ARPU值。
在一些实施例中,为降低冗余信息,选择与异网用户的特征信息结对的本网用户,其属性值各不相同。在一些实施例中,可以按照属性值区间将本网用户分类,进而从不同类中抽取本网用户。
图2中,以使用神经网络对结对特征信息进行处理为例,神经网络针对每一条结对特征信息输出一个0或1值,当完成全部结对特征信息的处理后,处理结果形成值为0/1的n维比值向量,其中1表示异网用户的缺失值大于本网用户的属性值,0表示异网用户的缺失值小于本网用户的属性值。通过比较结果与属性值的一一对应,能够得到n条缺失值的范围。
在步骤4中,利用步骤3产出的n条比较结果不断进行属性上下限的逼近缩小缺失值区间。由于结对大小判别模型可能会出现一定错误噪声(如出现属性值>50与属性值<48共存的情况),可以通过概率统计、分类模型等选出置信度最高的上下限构成最终预测区间。在一些实施例中,由于对比的已知用户越多,区间越精确,通过消除对比误差、不断对比,估值区间的无限缩小逼近,通过控制数据量可以做到应用场景下不同粒度的缺失属性填充。
在步骤5中,由于对比已知用户样本信息较差等原因,步骤4产出的最终区间可能产生精度不够的问题,因而针对不同的应用需求,基于高准确度的比较模型,通过更换已知对比样本迭代步骤2-4,在大数据背景下可以最终找到满足应用需求的区间,取区间均值进行缺失值填充。
通过这样的方法,将“数值计算”问题转换为“分类比较”问题,将复杂性高、难度大的回归问题转化为较为容易且效果相对更佳的分类问题,降低了运算难度。通过预测缺失值与已知值的大小关系,找到属性值的上下界,多次对比后,通过不断缩小缺失值区间逼近缺失值,提高了精准度;在运算过程中,除了基本的网络结构之外其他输入,降低了对待预测用户历史数据的依赖,特别适用于异网预测这类数据冷启动的应用场景。
在一些实施例中,可以根据需要,确定需要预测的缺失值,以用户ARPU预测为例,通过构建网络、提取特征等步骤构建结对大小判别等模型,针对一个未知用户,通过结对大小判别模型与多个(如200个)不同ARPU分档的已知用户进行对比,产出200组大小对比关系。通过消除大小判别误差,找到置信度最高的区间60-61,最终取区间平均值60.5进行填充。通过这样的方法,能够实现对异网用户ARPU值的预测,从而便于为用户提供对应消费水平的业务,提高推荐成功的概率。
本公开的用户缺失信息获取装置的一些实施例的示意图如图3所示。
异网用户特征获取单元301能够根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息。在一些实施例中,可以先根据通话记录获取与异网用户存在通话关系的本网用户;获取与异网用户存在通话关系的本网用户的特征信息;根据与异网用户存在通话关系的本网用户的特征信息,基于预定运算策略确定异网用户的预计特征信息。
结对特征获取单元302能够将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息。
比对结果确定单元303能够处理结对特征信息,获取针对每条结对特征信息的比对结果。在一些实施例中,比对结果包括异网用户的缺失值高于本网用户的属性值,或异网用户的缺失值低于本网用户缺失值。在一些实施例中,比对结果确定单元303可以使用神经网络进行结对特征信息的处理。
缺失值范围确定单元304能够根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,属性值为与异网用户的缺失值对应的本网用户的已知值。在一些实施例中,缺失值可以为ARPU、MOU、流量等中的任意一种,则属性值即为本网用户已知的ARPU、MOU或流量。
缺失值确定单元305能够根据预定数量的用户缺失值范围确定异网用户的预测缺失值。
这样的装置能够先利用与异网用户存在通话关系的已知特征信息用户的特征来预计异网用户的特征,进而通过对预计特征和已知本网用户已知特征的处理,得到缺失值与本网用户对应的属性值之间的大小关系,基于大量数据和迭代上述过程得到用户缺失值的范围,进而确定预测缺失值,从而利用海量数据提高了用户缺失值确定的准确性。
在一些实施例中,用户缺失信息获取装置还可以包括训练单元,能够可以根据已知的、本网用户的特征信息,预先对处理结对特征信息的算法,如神经网络,进行训练。在一些实施例中,可以基于本网用户的特征信息,生成经两个本网用户的特征信息结对的训练结对特征信息;将训练结对特征信息输入神经网络,进而获取针对训练结对特征信息的比对结果。由于本网用户的特征信息已知,因此根据本网用户的属性值确定比对结果的正确性。根据正确率等评价结果调整神经网络的参数,或者调整特征提取中所提取的特征种类,亦或调整上述两种信息,直至正确率不小于预定正确率。
这样的装置能够基于已知数据对算法进行训练,保证神经网络对结对特征信息处理的准确性,从而提高缺失值的预测准确度。
本公开用户缺失信息获取装置的一个实施例的结构示意图如图4所示。用户缺失信息获取装置包括存储器401和处理器402。其中:存储器401可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中用户缺失信息获取方法的对应实施例中的指令。处理器402耦接至存储器401,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器402用于执行存储器中存储的指令,能够提高用户缺失值确定的准确性。
在一个实施例中,还可以如图5所示,用户缺失信息获取装置500包括存储器501和处理器502。处理器502通过BUS总线503耦合至存储器501。该用户缺失信息获取装置500还可以通过存储接口504连接至外部存储装置505以便调用外部数据,还可以通过网络接口506连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高用户缺失值确定的准确性。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现用户缺失信息获取方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

Claims (12)

1.一种用户缺失信息获取方法,包括:
根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;
将所述异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;
处理所述结对特征信息,获取针对每条所述结对特征信息的比对结果;
根据每条所述结对特征信息的比对结果和所述结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,所述属性值为与所述异网用户的缺失值对应的本网用户的已知值;
根据预定数量的用户缺失值范围确定所述异网用户的预测缺失值。
2.根据权利要求1所述的方法,其中,所述比对结果包括异网用户的缺失值高于本网用户的属性值,或异网用户的缺失值低于本网用户缺失值。
3.根据权利要求1所述的方法,其中,所述根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息包括:
根据通话记录获取与异网用户存在通话关系的本网用户;
获取与异网用户存在通话关系的本网用户的特征信息;
根据与异网用户存在通话关系的本网用户的特征信息,基于预定运算策略确定异网用户的预计特征信息。
4.根据权利要求3所述的方法,其中,所述根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息还包括:
剔除干扰通话记录信息,所述干扰通话记录信息包括外卖、中介和骚扰电话的通话记录信息,以便根据剔除所述干扰通话记录信息后的通话记录获取与异网用户存在通话关系的本网用户。
5.根据权利要求1所述的方法,其中,所述根据预定数量的用户属性值范围确定所述异网用户的预测属性值包括:
根据预定数量的用户属性值范围逼近缩小缺失值的上下限;
在所述上下限的差距小于预定差距的情况下,将所述上下限取均值,作为所述预测缺失值。
6.根据权利要求5所述的方法,还包括:
在所述上下限的差距不小于预定差距的情况下,提取属性值在所述上下限范围内的预定数量的本网用户的特征信息,执行与所述异网用户的预计特征信息结对,生成并处理所述结对特征信息,更新所述用户缺失值范围和所述缺失值的上下限的操作;
根据更新后的所述上下限执行判断所述上下限的差距是小于所述预定差距的操作。
7.根据权利要求5所述的方法,其中,所述根据预定数量的用户属性值范围确定所述异网用户的预测属性值还包括:
获取所述用户属性值范围中的噪声数据;
剔除所述噪声数据,根据剔除噪声数据后的用户属性值范围逼近缩小缺失值的上下限。
8.根据权利要求1所述的方法,还包括:
基于本网用户的特征信息生成训练结对特征信息;
将所述训练结对特征信息输入神经网络,获取针对所述训练结对特征信息的比对结果;
根据所述本网用户的特征信息确定比对结果的评价值;
根据所述评价值调整所述神经网络的参数和/或特征信息所使用的特征种类,直至所述正确率不小于预定正确率,以便采用所述神经网络处理所述结对特征信息。
9.一种用户缺失信息获取装置,包括:
异网用户特征获取单元,被配置为根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;
结对特征获取单元,被配置为将所述异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;
比对结果确定单元,被配置为处理所述结对特征信息,获取针对每条所述结对特征信息的比对结果;
缺失值范围确定单元,被配置为根据每条所述结对特征信息的比对结果和所述结对特征信息中的本网用户的属性值,确定用户缺失值范围,其中,所述属性值为与所述异网用户的缺失值对应的本网用户的已知值;
缺失值确定单元,被配置为根据预定数量的用户缺失值范围确定所述异网用户的预测缺失值。
10.根据权利要求9所述的装置,还包括训练单元,被配置为:
基于本网用户的特征信息生成训练结对特征信息;
将所述训练结对特征信息输入神经网络,获取针对所述训练结对特征信息的比对结果;
根据所述本网用户的特征信息确定比对结果的评价值;
根据所述评价值调整所述神经网络的参数和/或特征信息所使用的特征种类,直至所述正确率不小于预定正确率,以便采用所述神经网络处理所述结对特征信息。
11.一种用户缺失信息获取装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任意一项所述的方法的步骤。
CN201911195983.8A 2019-11-29 2019-11-29 用户缺失信息获取方法和装置 Active CN112887491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195983.8A CN112887491B (zh) 2019-11-29 2019-11-29 用户缺失信息获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195983.8A CN112887491B (zh) 2019-11-29 2019-11-29 用户缺失信息获取方法和装置

Publications (2)

Publication Number Publication Date
CN112887491A true CN112887491A (zh) 2021-06-01
CN112887491B CN112887491B (zh) 2023-03-21

Family

ID=76038296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195983.8A Active CN112887491B (zh) 2019-11-29 2019-11-29 用户缺失信息获取方法和装置

Country Status (1)

Country Link
CN (1) CN112887491B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117588A1 (en) * 2013-06-12 2016-04-28 Nec Corporation Prediction function creation device, prediction function creation method, and computer-readable storage medium
CN106919706A (zh) * 2017-03-10 2017-07-04 广州视源电子科技股份有限公司 数据更新的方法及装置
WO2017186090A1 (zh) * 2016-04-25 2017-11-02 腾讯科技(深圳)有限公司 通信号码处理方法及装置
CN109829485A (zh) * 2019-01-08 2019-05-31 科大国创软件股份有限公司 一种基于移动通信数据的用户关系挖掘方法及系统
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117588A1 (en) * 2013-06-12 2016-04-28 Nec Corporation Prediction function creation device, prediction function creation method, and computer-readable storage medium
WO2017186090A1 (zh) * 2016-04-25 2017-11-02 腾讯科技(深圳)有限公司 通信号码处理方法及装置
CN106919706A (zh) * 2017-03-10 2017-07-04 广州视源电子科技股份有限公司 数据更新的方法及装置
CN109829485A (zh) * 2019-01-08 2019-05-31 科大国创软件股份有限公司 一种基于移动通信数据的用户关系挖掘方法及系统
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质

Also Published As

Publication number Publication date
CN112887491B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN108234198B (zh) 一种基站流量预测方法和设备
CN109145101B (zh) 人机对话方法、装置和计算机可读存储介质
CN109472296A (zh) 一种基于梯度提升决策树的模型训练方法及装置
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN106682906B (zh) 一种风险识别、业务处理方法和设备
US10453165B1 (en) Computer vision machine learning model execution service
WO2019184640A1 (zh) 一种指标确定方法及其相关设备
CN111294819B (zh) 一种网络优化方法及装置
CN108764951B (zh) 用户相似度获得方法和装置、设备、存储介质
TW201530468A (zh) 獲取網路主體社交關係類型的方法及裝置
CN109063433B (zh) 虚假用户的识别方法、装置及可读存储介质
US11270438B2 (en) System and method for triggering machine learning (ML) annotation model retraining
CN110889526B (zh) 一种用户升级投诉行为预测方法及系统
CN113254472A (zh) 一种参数配置方法、装置、设备及可读存储介质
CN107784511A (zh) 一种用户流失预测方法及装置
CN112861963A (zh) 训练实体特征提取模型的方法、装置和存储介质
CN114221991B (zh) 基于大数据的会话推荐反馈处理方法及深度学习服务系统
CN111753953A (zh) 一种用于获取神经网络架构的方法及装置
CN112887491B (zh) 用户缺失信息获取方法和装置
CN110677269A (zh) 通信用户关系的确定方法、装置和计算机可读存储介质
CN111258968B (zh) 企业冗余数据清理方法、装置及大数据平台
CN113033824A (zh) 模型超参数确定方法、模型训练方法及系统
CN114218500B (zh) 用户挖掘方法、系统、装置及存储介质
EP4339843A1 (en) Neural network optimization method and apparatus
CN115309985A (zh) 推荐算法的公平性评估方法及ai模型选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant