CN111522795A - 处理数据的方法和装置 - Google Patents

处理数据的方法和装置 Download PDF

Info

Publication number
CN111522795A
CN111522795A CN202010328555.4A CN202010328555A CN111522795A CN 111522795 A CN111522795 A CN 111522795A CN 202010328555 A CN202010328555 A CN 202010328555A CN 111522795 A CN111522795 A CN 111522795A
Authority
CN
China
Prior art keywords
feature
preset
characteristic
value
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010328555.4A
Other languages
English (en)
Inventor
曾凡祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hujin Xinrong Technology Co ltd
Original Assignee
Beijing Hujin Xinrong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hujin Xinrong Technology Co ltd filed Critical Beijing Hujin Xinrong Technology Co ltd
Priority to CN202010328555.4A priority Critical patent/CN111522795A/zh
Publication of CN111522795A publication Critical patent/CN111522795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种处理数据的方法和装置。其中,该方法包括:获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,预设特征为多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,其中,特征向量的维度小于预设数量;基于每个特征值对应的特征向量确定预设特征对应的标签集合。本发明解决了现有的独热编码方式处理离散型特征时计算性能差的技术问题。

Description

处理数据的方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种处理数据的方法和装置。
背景技术
目前,人们处于信息数字化的时代,一些企业通过对人们的信息进行统计,可以实现对用户信息的管理,从而能够根据管理中的信息来了解用户的需求,进而能够为用户提供更好的服务。
在现有技术中,通常使用机器学习算法来对用户信息进行管理。其中,在机器学习算法的应用中,通常需要将类别型特征(例如,性别、下订单的城市)编码成有意义的数值,然后再通过机器学习算法进行进一步地处理。
上述类别型特征通常为离散型特征,目前在对离散型特征进行编码时通常使用独热编码(One-Hot Encoding)的方法进行编码,其可将一个类别型的特征编码成一个维度为特征类别数量的向量,例如,对于特征性别,“男”可以编码成[0,1],“女”可以编码成[1,0]。
然而,对于维度较少的特征类别,独热编码效果明显。但是对于维度数量较大的特征类别,例如,下订单的城市,独热编码的维度可以达到万维以上,由于向量维度过大,对于算法计算性能不利。另外,向量过于稀疏,对机器学习算法的性能也容易造成负面影响。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种处理数据的方法和装置,以至少解决现有的独热编码方式处理离散型特征时计算性能差的技术问题。
根据本发明实施例的一个方面,提供了一种处理数据的方法,包括:获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,预设特征为多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,其中,特征向量的维度小于预设数量;基于每个特征值对应的特征向量确定预设特征对应的标签集合。
进一步地,处理数据的方法还包括:获取多个待处理对象的信用信息;从信用信息中提取多个特征,得到样本集,其中,样本集至少包括:多个特征对应的特征值以及每个特征对应的标签;从样本集中提取与预设特征对应的特征值集合,其中,特征值集合包括预设特征所对应的多个特征值。
进一步地,处理数据的方法还包括:确定预设特征对应的每个标签的先验概率;基于样本集确定每个特征值所对应的条件概率;根据先验概率和条件概率得到每个特征值对应的后验概率;对后验概率进行转换,得到每个特征值对应的特征向量。
进一步地,处理数据的方法还包括:获取预设特征所对应的每个特征值的特征向量;构建特征向量与预设特征的多个特征值之间的映射关系,得到标签集合,其中,标签集合中的每个标签与特征向量相对应。
进一步地,处理数据的方法还包括:在基于每个特征值对应的特征向量确定预设特征对应的标签集合之后,获取目标对象的信用信息;从信用信息中提取目标对象的预设特征值;检测特征值集合中是否存在预设特征值,得到检测结果;根据检测结果确定预设特征值所对应的标签。
进一步地,处理数据的方法还包括:在检测结果指示特征值集合中存在预设特征值的情况下,获取预设特征值对应的索引值,并基于索引值从标签集合中确定预设特征值对应的标签;在检测结果指示特征值集合中不存在预设特征值的情况下,生成预设向量,根据预设向量确定预设特征值对应的标签,其中,预设向量中的元素相同。
根据本发明实施例的另一方面,还提供了一种处理数据的装置,包括:获取模块,用于获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,预设特征为多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;处理模块,用于基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,其中,特征向量的维度小于预设数量;确定模块,用于基于每个特征值对应的特征向量确定预设特征对应的标签集合。
进一步地,处理数据的装置还包括:第一获取模块,用于获取多个待处理对象的信用信息;第一提取模块,用于从信用信息中提取多个特征,得到样本集,其中,样本集至少包括:多个特征对应的特征值以及每个特征对应的标签;第二提取模块,用于从样本集中提取与预设特征对应的特征值集合,其中,特征值集合包括预设特征所对应的多个特征值。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的处理数据的方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述的处理数据的方法。
在本发明实施例中,采用基于贝叶斯算法对待处理对象的特征所对应的特征向量进行降维处理的方式,在获取多个待处理对象的预设特征所对应的多个特征值之后,基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,最后基于每个特征值对应的特征向量确定预设特征对应的标签集合,其中,特征向量的维度小于预设数量。
在上述过程中,针对机器学习任务,结合贝叶斯算法将大规模的类别型特征中每一个可能的取值变换成一个低维密集的向量。通过本申请所提供的方案降低了特征所对应的向量维度,从而避免了由于向量维度过大的所造成的算法计算性能差的问题。
由此可见,本申请所提供的方案达到了降低特征所对应的向量维度的目的,从而实现了提高算法计算性能的技术效果,进而解决了现有的独热编码方式处理离散型特征时计算性能差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种处理数据的方法流程图;以及
图2是根据本发明实施例的一种处理数据的装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种处理数据的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
需要说明的是,数据处理设备(例如,电脑、PAD等终端)可作为本实施例所提供的方法的执行主体,可选的,本实施例所提供的方法可应用于信用评分卡中,还可应用于企业中对用户信息的管理中,相关应用场景在此不作具体限定。
在一种可选的实施例中,图1是根据本发明实施例的处理数据的方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,预设特征为多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应。
在步骤S102中,待处理对象的预设特征可以为用户的预设特征,例如,在信用评分卡的应用场景中,待处理对象可以为需进行信用评估的用户。另外,在信用评分卡的应用场景中,待处理对象的特征可以包括但不限于名字、性别、年龄、城市、职业、收入等信息。不同特征所具有的标签数量可以相同,也可以不同,例如,对于性别特征,其具有两个标签,即“男”和“女”,而城市(在中国)具有660个标签,例如,“北京”、“上海”、“重庆”等。其中,每个标签与一个特征值相对应,例如,对于性别,标签“男”所对应的特征值可以为0,标签“女”所对应的特征值可以为1。
需要说明的是,不同的特征所对应的标签数量可能是不同的,例如,在上述举例中,特征“性别”所对应的标签数量为2,而特征“城市”所对应的标签数量为660。可选的,在本实施例中,预设特征可以为标签数量不小于预设数量的特征,其中,预设数量可以根据实际情况进行自行设定。
步骤S104,基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,其中,特征向量的维度小于预设数量。
在步骤S104中,贝叶斯定理是关于随机事件A和B的条件概率的一则定理,其中,P(A|B)为在B发生的情况下,A发生的可能性。
需要说明的是,通过步骤S102得到每个预设特征所对应的特征值之后,数据处理设备基于贝叶斯定理对特征值进行编码,得到该特征值所对应的特征向量。容易注意到的是,在本申请中,使用的是基于贝叶斯定理的编码方式,而并不是独热编码方式,从而使得对特征值进行编码所得到的特征向量的维度小于基于独热编码对特征值进行编码所得到的特征向量的维度,即通过步骤S104实现了对特征向量的维度进行降维的目的。
步骤S106,基于每个特征值对应的特征向量确定预设特征对应的标签集合。
需要说明的是,通过步骤S104可以得到每个预设特征的标签所对应的特征向量,然后再通过步骤S106将该预设特征所对应的所有的特征向量以集合的形式表示,即可得到标签集合,例如,对于预设特征“城市”,其具有660个标签,预设特征“城市”中的每个标签对应有一个特征值,例如,标签“北京”的特征值为A,标签“上海”的特征值为B,通过步骤S104对预设特征“城市”中的每个特征值分别进行编码,即可得到每个特征值所对应的特征向量,也即得到每个标签所对应的特征向量,最后将所有的标签所对应的特征向量以集合的形式表示,即可得到上述标签集合。
由上述内容可知,预设特征所对应的标签集合中的元素为每个预设特征中的特征值所对应的向量。
基于上述步骤S102至步骤S106所限定的方案,可以获知,采用基于贝叶斯算法对待处理对象的特征所对应的特征向量进行降维处理的方式,在获取多个待处理对象的预设特征所对应的多个特征值之后,基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,最后基于每个特征值对应的特征向量确定预设特征对应的标签集合,其中,特征向量的维度小于预设数量。
容易注意到的是,在上述过程中,针对机器学习任务,结合贝叶斯算法将大规模的类别型特征中每一个可能的取值变换成一个低维密集的向量。通过本申请所提供的方案降低了特征所对应的向量维度,从而避免了由于向量维度过大的所造成的算法计算性能差的问题。
由此可见,本申请所提供的方案达到了降低特征所对应的向量维度的目的,从而实现了提高算法计算性能的技术效果,进而解决了现有的独热编码方式处理离散型特征时计算性能差的技术问题。
在一种可选的实施例中,以信用评分卡的应用场景为例,数据处理设备首先获取多个待处理对象的预设特征所对应的多个特征值,然后再对多个特征值所对应的特征向量进行降维处理。具体的,数据处理设备首先获取多个待处理对象的信用信息,并从信用信息中提取多个特征,得到样本集,然后再从样本集中提取与预设特征对应的特征值集合,其中,样本集至少包括:多个特征对应的特征值以及每个特征对应的标签,特征值集合包括预设特征所对应的多个特征值。
可选的,在信用评分卡的应用场景中,上述多个待处理对象的信用信息包括但不限于待处理对象的名字、性别、年龄、城市、职业、收入等信息,其中,每个信用信息可作为待处理对象的一个特征。具体的,根据机器学习算法的应用场景,针对大规模类别型特征x,随机抽取样本集D=(X,Y)={(xi,yi)|i=1,2,...,N},其中,N为样本的总数,(xi,yi)为第i个样本,xi为第i个样本类别型特征x的特征值,yi为第i个样本的标签。然后,提取特征x的所有特征值的特征值集合Sx={fj|j=1,2,...,K},其中K为特征x拥有的全部值的个数,fj为特征x的第j个值。
需要说明的是,在上述过程中,标签个数为C,其中,C满足yi∈{1,2,...,C}。
进一步地,在得到每个预设特征所对应的特征值之后,数据处理设备基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量。具体的,数据处理设备首先确定预设特征对应的每个标签的先验概率,然后基于样本集确定每个特征值所对应的条件概率,并根据先验概率和条件概率得到每个特征值对应的后验概率,最后对后验概率进行转换,得到每个特征值对应的特征向量。
可选的,在一种可选的信用评分卡的应用场景中,首先确定每个标签的先验概率P(y=c),其中,数据处理设备可通过样本集D计算每个标签的先验概率,每个标签的先验概率可满足下式:
Figure BDA0002464124120000061
在上式中,Nc表示标签为c的样本数量,N为样本集中样本总数。
另外,在本申请中,也可通过领域专家知识来直接设置每个标签的先验概率P(y=c)。
在得到样本集D之后,通过样本集D来计算特征x的每一个值的条件概率,即每个特征值所对应的条件概率可以满足下式:
Figure BDA0002464124120000062
在上式中,Nc,j表示样本中,标签为c且特征x的值为fj的样本个数。
在得到上述先验概率和条件概率之后,根据先验概率和条件概率可以得到每个特征值所对应的后验概率P(y=c|fj),其中,后验概率P(y=c|fj)可满足下式:
Figure BDA0002464124120000071
然后,计算对特征x的每一个特征值tj,c,其中,tj,c是针对类别c对应的贝叶斯变换后的实数值,tj,c满足tj,c=P(y=c|fj)。
进一步的,根据tj,c=P(y=c|fj)来计算特征x的第j个特征值的变换后的特征向量Tj={tj,c|j=1,2,...,K;c=1,2,...,C-1}。
由于
Figure BDA0002464124120000072
因此,Ti∈RC-1,即经过变换后,特征x的任意一个值可变换为一个(C-1)维的低维、密集向量。
更进一步的,在得到每个特征值对应的特征向量之后,需要将每个特征值进行特征变换。具体的,首先,获取预设特征所对应的每个特征值的特征向量,然后构建特征向量与预设特征的多个特征值之间的映射关系,得到标签集合,其中,标签集合中的每个标签与特征向量相对应。其中,上述映射关系可满足下式:
M={Tj|j=1,2,...,K}
在上式中,M为上述标签。
在一种可选的实施例中,在基于每个特征值对应的特征向量确定预设特征对应的标签集合之后,数据处理设备可根据目标对象的信用信息来确定预设特征所对应的标签。具体的,数据处理设备首先获取目标对象的信用信息,并从信用信息中提取目标对象的预设特征值,然后检测特征值集合中是否存在预设特征值,得到检测结果,最后,根据检测结果确定预设特征值所对应的标签。其中,在检测结果指示特征值集合中存在预设特征值的情况下,获取预设特征值对应的索引值,并基于索引值从标签集合中确定预设特征值对应的标签;在检测结果指示特征值集合中不存在预设特征值的情况下,生成预设向量,根据预设向量确定预设特征值对应的标签,其中,预设向量中的元素相同。
可选的,用户可向数据处理设备输入目标对象的信用信息,数据处理设备也可通过自动读取数据的方式(例如,自动读取数据库中已存储的数据)来获取目标对象的信用信息,并从信用信息中提取标签数量大于预设数量的预设特征,并得到该预设特征对应的预设特征值,然后根据上述的映射关系来得到低维度的特征向量。其中,当有新的样本达到时,通过上述特征映射M得到对应的低维密集向量。
具体的,首先获取该样本在特征x上的取值f,并在特征值集合Sx中查找取值f,若查找成功,返回索引j,若查找失败,返回-1;如果j>0,则返回M[j]作为f变换后的特征向量;如果j=-1,则返回维度为C-1的默认低维密集向量
Figure BDA0002464124120000081
Figure BDA0002464124120000082
其中,C为机器学习任务中标签的个数。
由上述内容可知,本申请所提供的方法基于贝叶斯推理结合数据观测以及先验知识,将大规模类别型特征编码成一个低维的、密集的向量,从而降低了算法的计算量,提高了算法的预测性能。另外,在上述计算过程中,可以灵活引入领域知识(例如,先验概率),解决了独热编码得到的向量长度很长对计算性能的影响以及稀疏性对算法预测性能的影响。
此外,还需要说明的是,本申请所提供的方案可应用于信用评分卡中,可以达到提升机器学习算法的准确率的目的。
实施例2
根据本发明实施例,还提供了一种处理数据的装置实施例,其中,图2是根据本发明实施例的处理数据的装置示意图,如图2所示,该装置包括:获取模块201、处理模块203以及确定模块205。
其中,获取模块201,用于获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,预设特征为多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;处理模块203,用于基于贝叶斯定理对多个特征值进行处理,得到每个特征值对应的特征向量,其中,特征向量的维度小于预设数量;确定模块205,用于基于每个特征值对应的特征向量确定预设特征对应的标签集合。
此处需要说明的是,上述获取模块201、处理模块203以及确定模块205对应于上述实施例的步骤S102至步骤S106,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。
在一种可选的实施例中,获取模块包括:第一获取模块、第一提取模块以及第二提取模块。其中,第一获取模块,用于获取多个待处理对象的信用信息;第一提取模块,用于从信用信息中提取多个特征,得到样本集,其中,样本集至少包括:多个特征对应的特征值以及每个特征对应的标签;第二提取模块,用于从样本集中提取与预设特征对应的特征值集合,其中,特征值集合包括预设特征所对应的多个特征值。
在一种可选的实施例中,处理模块包括:第一确定模块、第二确定模块、第一处理模块以及转换模块。其中,第一确定模块,用于确定预设特征对应的每个标签的先验概率;第二确定模块,用于基于样本集确定每个特征值所对应的条件概率;第一处理模块,用于根据先验概率和条件概率得到每个特征值对应的后验概率;转换模块,用于对后验概率进行转换,得到每个特征值对应的特征向量。
在一种可选的实施例中,确定模块包括:第二获取模块以及构建模块。其中,第二获取模块,用于获取预设特征所对应的每个特征值的特征向量;构建模块,用于构建特征向量与预设特征的多个特征值之间的映射关系,得到标签集合,其中,标签集合中的每个标签与特征向量相对应。
在一种可选的实施例中,处理数据的装置还包括:第三获取模块、第三提取模块、检测模块以及第三确定模块。其中,第三获取模块,用于在基于每个特征值对应的特征向量确定预设特征对应的标签集合之后,获取目标对象的信用信息;第三提取模块,用于从信用信息中提取目标对象的预设特征值;检测模块,用于检测特征值集合中是否存在预设特征值,得到检测结果;第三确定模块,用于根据检测结果确定预设特征值所对应的标签。
在一种可选的实施例中,第三确定模块包括:第四确定模块以及第五确定模块。其中,第四确定模块,用于在检测结果指示特征值集合中存在预设特征值的情况下,获取预设特征值对应的索引值,并基于索引值从标签集合中确定预设特征值对应的标签;第五确定模块,用于在检测结果指示特征值集合中不存在预设特征值的情况下,生成预设向量,根据预设向量确定预设特征值对应的标签,其中,预设向量中的元素相同。
实施例3
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述实施例1中的处理数据的方法。
实施例4
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述实施例1中的处理数据的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种处理数据的方法,其特征在于,包括:
获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,所述预设特征为所述多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;
基于贝叶斯定理对所述多个特征值进行处理,得到所述每个特征值对应的特征向量,其中,所述特征向量的维度小于所述预设数量;
基于所述每个特征值对应的特征向量确定所述预设特征对应的标签集合。
2.根据权利要求1所述的方法,其特征在于,获取多个待处理对象的预设特征所对应的多个特征值,包括:
获取所述多个待处理对象的信用信息;
从所述信用信息中提取所述多个特征,得到样本集,其中,所述样本集至少包括:所述多个特征对应的特征值以及所述每个特征对应的标签;
从所述样本集中提取与所述预设特征对应的特征值集合,其中,所述特征值集合包括所述预设特征所对应的多个特征值。
3.根据权利要求2所述的方法,其特征在于,基于贝叶斯定理对所述多个特征值进行处理,得到所述每个特征值对应的特征向量,包括:
确定所述预设特征对应的每个标签的先验概率;
基于所述样本集确定所述每个特征值所对应的条件概率;
根据所述先验概率和所述条件概率得到所述每个特征值对应的后验概率;
对所述后验概率进行转换,得到所述每个特征值对应的特征向量。
4.根据权利要求3所述的方法,其特征在于,基于所述每个特征值对应的特征向量确定所述预设特征对应的标签集合,包括:
获取所述预设特征所对应的每个特征值的特征向量;
构建所述特征向量与所述预设特征的多个特征值之间的映射关系,得到所述标签集合,其中,所述标签集合中的每个标签与所述特征向量相对应。
5.根据权利要求4所述的方法,其特征在于,在基于所述每个特征值对应的特征向量确定所述预设特征对应的标签集合之后,所述方法还包括:
获取目标对象的信用信息;
从所述信用信息中提取所述目标对象的预设特征值;
检测所述特征值集合中是否存在所述预设特征值,得到检测结果;
根据所述检测结果确定所述预设特征值所对应的标签。
6.根据权利要求5所述的方法,其特征在于,根据所述检测结果确定所述预设特征值所对应的标签,包括:
在所述检测结果指示所述特征值集合中存在所述预设特征值的情况下,获取所述预设特征值对应的索引值,并基于所述索引值从所述标签集合中确定所述预设特征值对应的标签;
在所述检测结果指示所述特征值集合中不存在所述预设特征值的情况下,生成预设向量,根据所述预设向量确定所述预设特征值对应的标签,其中,所述预设向量中的元素相同。
7.一种处理数据的装置,其特征在于,包括:
获取模块,用于获取多个待处理对象的预设特征所对应的多个特征值,其中,每个待处理对象具有多个特征,所述预设特征为所述多个特征中的任意一个,每个特征具有预设数量的标签,每个标签与至少一个特征值相对应;
处理模块,用于基于贝叶斯定理对所述多个特征值进行处理,得到所述每个特征值对应的特征向量,其中,所述特征向量的维度小于所述预设数量;
确定模块,用于基于所述每个特征值对应的特征向量确定所述预设特征对应的标签集合。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
第一获取模块,用于获取所述多个待处理对象的信用信息;
第一提取模块,用于从所述信用信息中提取所述多个特征,得到样本集,其中,所述样本集至少包括:所述多个特征对应的特征值以及所述每个特征对应的标签;
第二提取模块,用于从所述样本集中提取与所述预设特征对应的特征值集合,其中,所述特征值集合包括所述预设特征所对应的多个特征值。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的处理数据的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的处理数据的方法。
CN202010328555.4A 2020-04-23 2020-04-23 处理数据的方法和装置 Pending CN111522795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328555.4A CN111522795A (zh) 2020-04-23 2020-04-23 处理数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328555.4A CN111522795A (zh) 2020-04-23 2020-04-23 处理数据的方法和装置

Publications (1)

Publication Number Publication Date
CN111522795A true CN111522795A (zh) 2020-08-11

Family

ID=71910843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328555.4A Pending CN111522795A (zh) 2020-04-23 2020-04-23 处理数据的方法和装置

Country Status (1)

Country Link
CN (1) CN111522795A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190551A (zh) * 2021-04-20 2021-07-30 北京百度网讯科技有限公司 特征检索系统的构建方法、特征检索方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025276A (zh) * 2017-03-22 2017-08-08 广东小天才科技有限公司 一种信息查询方法及移动终端
CN107491985A (zh) * 2017-08-01 2017-12-19 携程旅游网络技术(上海)有限公司 电商平台的用户评分方法及装置、电子设备、存储介质
CN109558773A (zh) * 2017-09-26 2019-04-02 阿里巴巴集团控股有限公司 信息识别方法、装置及电子设备
CN109741105A (zh) * 2018-12-29 2019-05-10 星潮闪耀移动网络科技(中国)有限公司 一种向量生成方法及装置
CN109902190A (zh) * 2019-03-04 2019-06-18 京东方科技集团股份有限公司 图像检索模型优化方法、检索方法、装置、系统及介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置
CN110288349A (zh) * 2018-03-16 2019-09-27 杭州海康威视数字技术股份有限公司 用户信息管理方法、装置及系统、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025276A (zh) * 2017-03-22 2017-08-08 广东小天才科技有限公司 一种信息查询方法及移动终端
CN107491985A (zh) * 2017-08-01 2017-12-19 携程旅游网络技术(上海)有限公司 电商平台的用户评分方法及装置、电子设备、存储介质
CN109558773A (zh) * 2017-09-26 2019-04-02 阿里巴巴集团控股有限公司 信息识别方法、装置及电子设备
CN110288349A (zh) * 2018-03-16 2019-09-27 杭州海康威视数字技术股份有限公司 用户信息管理方法、装置及系统、存储介质
CN109741105A (zh) * 2018-12-29 2019-05-10 星潮闪耀移动网络科技(中国)有限公司 一种向量生成方法及装置
CN109902190A (zh) * 2019-03-04 2019-06-18 京东方科技集团股份有限公司 图像检索模型优化方法、检索方法、装置、系统及介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李勃昊等: "基于后验概率特征的改进无监督语音样例检测" *
李勃昊等: "基于后验概率特征的改进无监督语音样例检测", 信息工程大学学报, vol. 16, no. 16, pages 1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190551A (zh) * 2021-04-20 2021-07-30 北京百度网讯科技有限公司 特征检索系统的构建方法、特征检索方法、装置及设备

Similar Documents

Publication Publication Date Title
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
CN106126617A (zh) 一种视频检测方法及服务器
CN112199957B (zh) 基于属性和关系信息联合嵌入的人物实体对齐方法及系统
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN111177507A (zh) 多标记业务处理的方法及装置
JP2019153092A (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
US20230055263A1 (en) Stratification in non-classified heterogeneous object labels
CN111209351A (zh) 对象关系预测、对象推荐方法及装置、电子设备、介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111522795A (zh) 处理数据的方法和装置
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
JP5197492B2 (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
CN116578734A (zh) 一种基于clip的概率嵌入组合检索方法
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN109902129A (zh) 基于大数据分析的保险代理人归类方法及相关设备
CN115455939A (zh) 篇章级事件抽取方法、装置、设备及存储介质
CN112989815A (zh) 基于信息交互的文本相似度识别方法、装置、设备及介质
CN114168780A (zh) 多模态数据处理方法、电子设备及存储介质
CN113065025A (zh) 视频查重方法、装置、设备及存储介质
CN109829109B (zh) 基于共现分析的推荐方法
CN113763084A (zh) 产品推荐的处理方法、装置、设备及存储介质
KR20200083751A (ko) 다차원 임베딩을 이용한 시퀀스 데이터 태깅 방법 및 장치
CN107870923B (zh) 图像检索方法和装置
CN111881747B (zh) 信息预估方法、装置,电子设备
CN117132926B (zh) 一种视频处理的方法、相关装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination