CN114547448A - 数据处理、模型训练方法、装置、设备、存储介质及程序 - Google Patents
数据处理、模型训练方法、装置、设备、存储介质及程序 Download PDFInfo
- Publication number
- CN114547448A CN114547448A CN202210148468.XA CN202210148468A CN114547448A CN 114547448 A CN114547448 A CN 114547448A CN 202210148468 A CN202210148468 A CN 202210148468A CN 114547448 A CN114547448 A CN 114547448A
- Authority
- CN
- China
- Prior art keywords
- feature
- items
- user
- information
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了数据处理、模型训练方法、装置、设备、存储介质及程序,应用于人工智能领域,尤其涉及大数据、深度学习、智能风控和智能营销技术。具体实现方案为:获取第一用户的属性信息和历史行为信息;根据属性信息和历史行为信息,确定第一用户对应的第一用户特征信息,第一用户特征信息包括M个特征项对应的特征信息;对M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;根据第一用户特征信息和多个组合特征信息,确定第一用户的目标类别。上述过程中,通过对M个特征项中不同特征项对应的特征信息进行组合,能够产生出更多的组合特征信息,使得在分类时考虑的特征信息更加丰富,因此,能够提高用户分类结果的准确性。
Description
技术领域
本公开涉及人工智能领域,具体涉及大数据、深度学习、智能风控和智能营销技术,尤其涉及一种数据处理、模型训练方法、装置、设备、存储介质及程序。
背景技术
一些应用场景中,需要识别用户的类别。例如,在金融领域,需要识别用户的信用类别,以预估用户是否会违约。在电商领域,可能需要识别用户的喜好类别,以预估用户可能感兴趣的商品。
目前,在识别用户的类别时,通常先挖掘得到待识别用户的用户特征信息,将用户特征信息输入至预先训练得到的分类模型中。通过分类模型对用户特征信息进行分类处理,得到用户的类别。
然而,上述方式确定出的用户类别的准确性不高。
发明内容
本公开提供了一种数据处理、模型训练方法、装置、设备、存储介质及程序。
根据本公开的第一方面,提供了一种数据处理方法,包括:
获取第一用户的属性信息和历史行为信息;
根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
根据本公开的第二方面,提供了一种模型训练方法,包括:
获取样本用户的属性信息、历史行为信息和标记类别;
通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别;
根据所述标记类别和所述预测类别,对所述预设模型的模型参数进行更新。
根据本公开的第三方面,提供了一种数据处理装置,包括:
获取模块,用于获取第一用户的属性信息和历史行为信息;
特征提取模块,用于根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块,用于对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块,用于根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
根据本公开的第四方面,提供了一种模型训练装置,包括:
获取模块,用于获取样本用户的属性信息、历史行为信息和标记类别;
特征提取模块,用于通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块,用于通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块,用于通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别;
更新模块,用于根据所述标记类别和所述预测类别,对所述预设模型的模型参数进行更新。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者,执行第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法,或者,第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法,或者,执行第二方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种系统架构的示意图;
图2为本公开实施例提供的一种数据处理方法的流程示意图;
图3为本公开实施例提供的一种特征项层级关系的示意图;
图4为本公开实施例提供的另一种数据处理方法的流程示意图;
图5为本公开实施例提供的一种预设模型及其数据处理过程的示意图;
图6为本公开实施例提供的又一种数据处理方法的流程示意图;
图7为本公开实施例提供的一种模型训练方法的流程示意图;
图8为本公开实施例提供的一种数据处理装置的结构示意图;
图9为本公开实施例提供的一种模型训练装置的结构示意图;
图10为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供一种数据处理、模型训练方法、装置、设备、存储介质及程序,应用于人工智能领域中的大数据、深度学习、智能风控和智能营销技术,可应用于用户分类场景,以提高分类结果的准确性。
需要说明的是,本公开提供的技术方案可应用于任何需要对用户进行分类的场景。例如,确定用户的喜好类别、确定用户的信用类别等,本公开对此不作限定。
为了便于理解本公开的技术方案,下面结合图1对本公开实施例涉及的系统架构进行介绍。
图1为本公开实施例提供的一种系统架构的示意图。如图1所示,该系统架构包括:训练设备和执行设备。
其中,训练设备可以对样本用户数据库中的多个样本用户进行学习、建模,得到预设模型。示例性的,在训练之前,可以对各样本用户的类别进行标注,例如,标注每个样本用户为信用类别或者非信用类别,又例如,标注每个样本用户的喜好类别为类别1、类别2或者类别3。在训练过程中,根据标注结果对多个样本用户的相关信息进行学习,得到预设模型,使得预设模型具有对用户进行分类的能力。本公开实施例中,预设模型也可以称为用户分类模型。
训练设备训练得到的预设模型可以部署到执行设备中。参见图1,将待分类的第一用户的相关信息输入执行设备。执行设备利用预设模型对第一用户进行分类处理,得到第一用户的类别。
需要说明的是,上述系统架构以及应用场景仅作为一些可能的示例,不应该作为对本公开实施例的限定。一些应用场景中,训练设备、执行设备可以是相互独立的电子设备。另一些应用场景中,训练设备和执行设备可以是同一电子设备。
一些相关技术中,在识别第一用户的类别时,通常先挖掘得到第一用户的用户特征信息,将用户特征信息输入至预先训练得到的分类模型中。通过分类模型对用户特征信息进行分类处理,得到第一用户的类别。然而,实际应用中,上述方式确定出的用户类别的准确性不高。
本公开提供的数据处理方法中,第一用户对应的用户特征信息包括M个特征项对应的特征信息,可以对M个特征项中不同特征项对应的特征信息进行组合,从而产生出更多的用于描述用户的组合特征信息,进而,在确定第一用户的类别时,不仅考虑用户特征信息,还考虑多个组合特征信息,使得考虑的特征信息更加丰富,因此,能够提高用户分类结果的准确性。
下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本公开实施例提供的一种数据处理方法的流程示意图。本实施例的方法可以由图1中的执行设备执行。如图2所示,本实施例的方法包括:
S201:获取第一用户的属性信息和历史行为信息。
本实施例中,第一用户为待分类用户。可以利用大数据挖掘技术从互联网获取第一用户的属性信息和历史行为信息。
其中,第一用户的属性信息包括但不限于:年龄、性别、职业、收入水平、所在城市等。第一用户的历史行为信息包括但不限于:用户的历史购买行为、用户的收藏、关注行为、用户的浏览行为等。
S202:根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数。
本实施例中,可以利用特征提取技术对第一用户的属性信息和历史行为信息进行特征提取,以得到第一用户特征信息。示例性的,可以采用特征向量的形式对第一用户的属性信息和历史行为信息进行表达,得到第一用户特征信息。第一用户特征信息中包括M个特征项对应的特征信息,每个特征项对应的特征信息可以视为一个特征向量。
举例而言,假设M=5,则第一用户特征信息的内容可以如下所示:
{特征项1对应的特征向量,
特征项2对应的特征向量,
特征项3对应的特征向量,
特征项4对应的特征向量,
特征项5对应的特征向量}。
本实施例中,可以预先根据具体应用场景所关注的特征类别,确定出多个特征项。在进行特征提取时,根据预先确定的多个特征项进行特征提取,从而得到各特征项对应的特征信息。
举例而言,多个特征项包括但不限于:年龄、性别、职业、收入水平、兴趣爱好等。其中,针对特征项“兴趣爱好”还可以进一步划分为多个细粒度的特征项,例如:餐饮方面的兴趣爱好、娱乐方面的兴趣爱好、金融财经方面的兴趣爱好等。能够理解,上述每个细粒度的特征项还可以进一步划分为多个更细粒度的特征项,例如:特征项“娱乐方面的兴趣爱好”可以进一步划分为:影视方面的兴趣爱好、游戏方面的兴趣爱好、手工方面的兴趣爱好等。如此类推,本实施例中的特征项可以包括多个层级。
作为一个示例,图3为本公开实施例提供的一种特征项层级关系的示意图。如图3所示,以4个层级为例,第一层级可以包括:年龄、性别、职业、收入水平、兴趣爱好等。其中,兴趣爱好的第二层级可以包括:娱乐、餐饮、金融财经等。其中,娱乐的第三层级可以包括:影视、游戏、手工等。金融财经的第三层级可以包括:股票、贷款、保险等。S202中的M个特征项可以为图3中各特征项的部分或者全部。
需要说明的是,图3所示的特征项层级关系仅为示例,不构成对本公开实施例的限定。
S203:对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息。
需要说明的是,可以对两个不同特征项对应的特征信息进行组合,也可以对三个不同特征项对应的特征信息进行组合,还可以对更多个不同特征项对应的特征信息进行组合,本实施例对此不作限定。
一些可能的实现方式中,可以遍历各种可能的组合方式,对M个特征项中任意S个不同特征项对应的特征信息进行组合,得到个组合特征信息。其中,S依次取2、3、……、M-1,这样,一共得到个组合特征信息。该方式中,通过遍历各种可能的组合方式,考虑了所有可能的特性项之间的关联联系,从而,得到的组合特征信息更加丰富。
应理解的是,上述实现方式会产生较大数量的组合特征信息,这样可能会导致后续计算量较大。本实施例的另一些可能的实现方式中,还可以仅对M个特征项中部分不同特征项对应的特征信息进行组合,得到多个组合特征信息。
可选的,可以获取M个特征项中每个特征项所对应的领域,对所述M个特征项中对应同一领域的不同特征项对应的特征信息进行组合,得到多个组合特征信息。
示例性的,根据M个特征项各自对应的领域,在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;对同一特征项集合中的各特征项对应的特征信息进行组合,得到该特征项集合对应的所述组合特征信息。
其中,每个特征项所对应的领域指示的是该特征项是描述的哪个业务领域的特征。需要说明的是,本实施例对于业务领域的划分不作限定,针对不同的应用场景可能有不同的划分方式。举例而言,图3所示的特征项层级关系中,可以认为收入水平、金融财经对应同一领域,也就是说收入水平与股票、贷款、保险对应同一领域。
能够理解的是,若两个/多个特征项对应同一领域,则说明该两个/多个特征项之间的关联关系较为紧密,因此,可以对该两个/多个特征项对应的特征信息进行组合,这样得到的是表达能力较强的组合特征信息。
由此可见,通过对M个特征项中对应同一领域的不同特征项对应的特征信息进行组合,在保证得到表达能力较强的组合特征信息的前提下,降低了组合特征信息的数据量。
本实施例中,通过对M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息,实现了基于第一用户特征信息衍生出更多的用户特征信息,丰富了第一用户对应的用户特征信息。另外,通过对不同特征项对应的特征信息进行组合,得到的是非线性的组合特征信息,使得组合特征信息对用户特征的表达能力更强。
S204:根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的类别。
本实施例在确定第一用户的类别时,不仅根据第一用户特征信息,还考虑了通过对第一用户特征信息中的不同特征项对应的特征信息进行组合得到的多个组合特征信息,可见,本实施例考虑的用户特征信息更加丰富和全面,因此,能够提高确定出的用户类别的准确性。
需要说明的是,本实施例对于具体的用户分类场景不作限定。一些示例中,用户分类场景可以为二分类场景,这样,第一用户的类别为预设类别或者非预设类别。举例而言,在识别用户信用类别的场景中,第一用户的类别可以为信用类别或者非信用类别。信用类别的用户的违约概率小于非信用类别的用户的违约概率。
另一些示例中,用户分类场景可以为多分类。以识别用户喜好类别的场景为例,第一用户的类别可以为类别1、类别2或者类别3。在不同具体应用场景中,用户类别的划分方式可能有所不同,本实施例对此不作限定。
本实施例提供的数据处理方法,包括:获取第一用户的属性信息和历史行为信息;根据属性信息和历史行为信息,确定第一用户对应的第一用户特征信息,第一用户特征信息包括M个特征项对应的特征信息,M为大于1的整数;对M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;根据第一用户特征信息和多个组合特征信息,确定第一用户的类别。上述过程中,通过对M个特征项中不同特征项对应的特征信息进行组合,能够产生出更多的具有较强表达能力的组合特征信息,进而,在确定第一用户的类别时,不仅考虑第一用户特征信息,还考虑多个组合特征信息,使得考虑的特征信息更加丰富,因此,能够提高用户分类结果的准确性。
在图2所示实施例的基础上,下面结合一个更具体的实施例对图2所示实施例中S203的可能实现方式进行详细说明。
图4为本公开实施例提供的另一种数据处理方法的流程示意图。如图4所示,本实施例的方法包括:
S401:确定M个特征项对应的领域,以及确定所述M个特征项对应的特征层级。
示例性的,可以确定出M个特征中的每个特征项对应的领域,以及每个特征项对应的特征层级。还可以确定出M个特征项中部分特征项各自对应的领域,以及部分特征项各自对应的特征层级。
本实施例中,可以根据业务场景,预先确定多个预设领域,例如,金融领域、电商领域、游戏领域等。从多个预设领域中确定每个特征项对应的领域。可选的,针对每个特征项,确定该特征项与每个预设领域的关联度。将最高关联度对应的预设领域确定为该特征项对应的领域。
需要说明的是,每个特征项对应的领域的数量可以为一个或者多个。本实施例对此不作限定。
本实施例中,每个特征项对应的特征层级用于指示该特征项位于层级关系中的第几层级。一种可能的实现方式中,可以采用如下方式确定各特征项对应的特征层级:获取预设的特征项层级关系(例如图3所示的特征项层级关系),所述特征项层级关系用于指示多个特征项之间的层级关系。根据所述特征项层级关系,确定所述M个特征项中每个特征项对应的特征层级。例如,以图3所示的特征项层级关系为例,特征项“年龄”位于第一层级,特征项“娱乐”位于第二层级,特征项“游戏”位于第三层级。
S402:根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项。
本实施例中,每个特征项集合中包括的各特征项为待组合的特征项。也就是说,本实施例在对特征项进行组合时,是将同一领域的不同特征项进行组合。
一种可能的实现方式中,可以采用如下方式确定出多个特征项集合:
(1)根据M个特征项对应的特征层级、以及M个特征项对应的领域,在M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数。
也就是说,在M个特征项中寻找“对应同一领域且对应不同特征层级”的至少两个第一特征项,形成一个第一特征项集合。
举例而言,图3所示示例中,特征项“收入水平”和“股票”可以形成一个第一特征项集合;特征项“收入水平”和“贷款”可以形成一个第一特征项集合;特征项“收入水平”和“保险”可以形成一个第一特征项集合;特征项“收入水平”、“贷款”、“股票”、“保险”可以形成一个第一特征项集合。
(2)根据M个特征项对应的特征层级、以及M个特征项对应的领域,在M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数。
也就是说,在M个特征项中寻找“对应同一领域且对应同一特征层级”的至少两个第二特征项,形成一个第二特征项集合。
举例而言,图3所示示例中,特征项“贷款”和“股票”可以形成一个第二特征项集合;特征项“保险”和“贷款”可以形成一个第二特征项集合;特征项“股票”和“保险”可以形成一个第二特征项集合;特征项“贷款”、“股票”、“保险”可以形成一个第二特征项集合。
(3)将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
也就是说,多个特征项集合包括K个第一特征项集合和P个第二特征项集合。
S403:对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的组合特征信息。
可选的,对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的组合特征信息。
可选的,对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的组合特征信息。其中,预设运算包括但不限于:相乘运算、求笛卡尔积运算等。
可以针对上述每个特征项集合,分别进行组合处理,得到每个特征项集合对应的组合特征信息。还可以针对上述多个特征项集合中的部分特征项集合,执行组合处理,得到所述部分特征项集合各自对应的组合特征信息。
本实施例中,在对M个特征项中的不同特征项进行组合时,不仅考虑不同特征层级之间的组合,还考虑同一特征层级内部的组合,使得得到的组合特征信息更加全面。
上述图2和图4所示的数据处理方法中的至少部分步骤可以由预设模型实现。示例性的,数据处理方法由执行设备执行。执行设备中部署有预设模型。执行设备获取到第一用户的属性信息和历史行为信息之后,通过预设模型根据所述属性信息和所述历史行为信息,确定第一用户对应的第一用户特征信息,第一用户特征信息包括M个特征项对应的特征信息。进一步的,通过预设模型对M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息。进而,通过预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
需要说明的是,本实施例对于预设模型的结构不作限定。示例性的,预设模型可以为卷积神经网络模型,或者其他结构的网络模型。
作为一个示例,图5为本公开实施例提供的一种预设模型及其数据处理过程的示意图。如图5所示,预设模型包括:特征提取网络、特征降维网络、特征组合网络、分类网络。下面以图5所示的预设模型为例,对数据处理方法进行详细说明。
图6为本公开实施例提供的又一种数据处理方法的流程示意图。如图6所示,本实施例的方法,包括:
S601:获取第一用户的属性信息和历史行为信息。
S602:对所述属性信息和所述历史行为信息进行特征提取,得到所述第一用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息。
参见图5,将第一用户的属性信息和历史行为信息输入至预设模型的特征提取网络,由特征提取网络对属性信息和历史行为信息进行特征提取,得到第二用户特征信息。第二用户特征信息中的特征项的数量大于或者等于第一用户特征信息中的特征项的数量。
S603:对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
实际应用场景中,通过对属性信息和历史行为信息进行特征提取得到的第二用户特征通常为高维稀疏特征。如果直接将第二用户特征信息输入至分类网络进行分类处理,分类网络很难从高维稀疏特征中进行有效的特征空间划分,且对噪声会很敏感,导致分类结果准确性不高。
因此,本实施例中,可以先对第二用户特征信息进行降维处理,得到第一用户特征信息,第一用户特征信息为低维稠密特征。参见图5,将第二用户特征信息输入至特征降维网络,由特征降维网络对第二用户特征信息进行降维处理,得到第一用户特征信息。第一用户特征信息的维度低于第二用户特征信息的维度。
本实施例中,可以采用如下可行的方式进行降维处理:
(1)分别对第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理。
示例性的,可以通过嵌入(embedding)映射的方式,将第二用户特征信息中的部分特征项对应的特征信息映射到低维空间中,得到低维向量。这样,根据各特征项映射后的低维向量,可以得到第一用户特征信息。
(2)删除第二用户特征信息中的至少部分特征项对应的特征信息。
也就是说,采用特征项筛选的方式,删除部分特征项对应的特征信息。示例性的,可以删除对应的特征信息为空的特征项,或者删除无关领域的特征项等。
可选的,可以获取每个特征项对应的信息价值(Infromation Value,IV)。IV值用来表示特征项对目标预测的贡献程度,即特征项的预测能力,一般来说,IV值越高,该特征项的预测能力越强,信息贡献程度越高。进而,根据各特征项对应的IV值,进行特征项的筛选。例如,在第二用户特征信息中删除对应的IV值小于预设阈值的特征项对应的特征信息。
应理解的是,实际应用中,可以根据实际场景需求,采用上述的任意一种降维方式,或者,还可以将上述两种降维方式结合使用。
S604:对所述第一用户特征信息中不同特征项对应的特征信息进行组合,得到多个组合特征信息。
参见图5,可以将第一用户特征信息输入至特征组合网络,由特征组合网络对第一用户特征信息中的不同特征项对应的特征信息进行组合,得到多个组合特征信息。
应理解的是,对不同特征项对应的特征信息进行组合的方式可以参见图2或图4所示实施例的详细描述,此处不作赘述。
S605:根据所述第一用户特征信息,确定所述第一用户的目标类别为预设类别的第一概率。
S606:根据所述多个组合特征信息,确定所述第一用户的目标类别为所述预设类别的第二概率。
S607:根据所述第一概率和所述第二概率,确定所述第一用户的目标类别为所述预设类别或者非预设类别。
参见图5,将第一用户特征信息和多个组合特征信息输入至分类网络。分类网络可以执行上述的S605至S607,确定出第一用户的目标类别。举例而言,假设预设类别为信用类别,非预设类别为非信用类别。则分类网络可以根据第一用户特征信息,确定出第一用户为信用类别的第一概率,并根据多个组合特征信息,确定出第一用户为信用类别的第二概率,根据第一概率和第二概率,确定出第一用户为信用类别的总概率。若总概率大于预设阈值,则确定第一用户的目标类别为信用类别。否则确定第一用户的目标类别为非信用类别。
需要说明的是,上述S605至S607是以二分类场景为例进行说明的。当应用于多分类场景时,以三分类场景为例,分类网络可以根据第一用户特征信息确定出第一用户的目标类别为类别1的第一概率、为类别2的第一概率、为类别3的第一概率,并根据多个组合特征信息,确定第一用户的目标类别为类别1的第二概率、为类别2的第二概率、为类别3的第二概率。进而,根据上述各概率,确定出第一用户为类别1的总概率、为类别2的总概率、为类别3的总概率。将最大总概率对应的类别确定为目标类别。
本实施例中,执行设备确定出第一用户的目标类别之后,可以对该目标类别进行显示,或者,向预设设备发送第一用户的目标类别。例如,预设设备可以为终端设备。
上述实施例描述了利用预设模型对第一用户进行分类处理的过程。下面结合具体的实施例说明预设模型的训练过程。
图7为本公开实施例提供的一种模型训练方法的流程示意图。本实施例的方法可以由图1中的训练设备执行。如图7所示,本实施例的方法包括:
S701:获取样本用户的属性信息、历史行为信息和标记类别。
本实施例中,可以事先确定大量样本用户,挖掘得到样本用户的属性信息和历史行为信息,并确定每个样本用户对应的标记类别。举例而言,可以由标注人员人工分析每个样本用户的属性信息和历史行为信息,确定样本用户的类别并进行标记。进一步的,可以利用大量样本用户的属性信息、历史行为信息和标记类别,对待训练的预设模型进行训练。
应理解,根据训练目标的不同,样本用户对应的标记类别也所有不同。例如,若预设模型用于识别用户的信用类别,则各样本用户对应的标记类别为信用类别或者非信用类别。若预设模型用于识别用户的喜好类别,则各样本用户对应的标记类别为类别1、类别2、类别3等。
能够理解的是,在训练过程中,需要利用大量的样本用户对预设模型进行训练。而各样本用户的训练过程是类似的。本实施例中以一个样本用户对预设模型的训练过程为例进行描述。
S702:通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数。
S703:通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息。
S704:通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别。
应理解的是,S702至S704中预设模型的数据处理过程与前述实施例是类似的,此处不作赘述。
S705:根据所述标记类别和所述预测类别,对所述预设模型的模型参数进行更新。
具体的,可以根据标记类别和预测类别,确定损失函数。根据损失函数对预设模型的模型参数进行更新,得到更新后的预设模型。
进一步的,确定更新后的预设模型是否收敛。若收敛,则预设模型的训练过程结束。若未收敛,则重复执行S701至S705的训练过程,直至预设模型收敛。
一些可能的实现方式中,还可以将多个样本用户划分为训练集和测试集。利用训练集中的样本用户及其标记类别,对预设模型进行训练,得到训练后的预设模型。进而,利用测试集中的样本用户及其标记类别,对训练后的预设模型进行测试,根据测试结果对训练后的预设模型进行优化,得到优化后的预设模型。这样,优化后的预设模型可用于用户分类过程。
一些可能的实现方式中,S703中,对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息,包括:
确定所述M个特征项对应的领域;
在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,在所述M个特征项中确定出多个特征项集合,包括:
获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
一些可能的实现方式中,根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合,包括:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
一些可能的实现方式中,对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息,包括:
对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,S702中,根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,包括:
对所述属性信息和所述历史行为信息进行特征提取,得到所述样本用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息;
对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
一些可能的实现方式中,对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,包括:
对所述第二用户特征信息进行如下处理中的至少一项,得到所述第一用户特征信息:
分别对所述第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理;
删除所述第二用户特征信息中的至少部分特征项对应的特征信息。
一些可能的实现方式中,S704中,根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的目标类别,包括:
根据所述第一用户特征信息,确定所述样本用户的目标类别为预设类别的第一概率;
根据所述多个组合特征信息,确定所述样本用户的目标类别为所述预设类别的第二概率;
根据所述第一概率和所述第二概率,确定所述样本用户的目标类别为所述预设类别或者非预设类别。
本实施例提供的模型训练方法,包括:获取样本用户的属性信息、历史行为信息和标记类别;通过预设模型根据属性信息和历史行为信息,确定样本用户对应的第一用户特征信息,第一用户特征信息包括M个特征项对应的特征信息;通过预设模型对M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;通过预设模型根据第一用户特征信息和多个组合特征信息,确定样本用户的预测类别;根据标记类别和预设类别,对预设模型的模型参数进行更新。上述训练过程中,通过对第一用户特征信息中的不同特征项对应的特征信息进行组合处理,得到多个组合特征信息,使得模型训练过程中学习到了更加丰富的用户特征,提高了预设模型的分类能力。因此,利用预设模型对用户进行分类,能够提高分类结果的准确性。
图8为本公开实施例提供的一种数据处理装置的结构示意图。该装置可以为软件和/或硬件的形式。该装置可以为图1中的执行设备,或者为执行设备内容的模块、单元、处理芯片、模组等。如图8所示,本实施例提供的数据处理装置800,包括:
获取模块801,用于获取第一用户的属性信息和历史行为信息;
特征提取模块802,用于根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块803,用于对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块804,用于根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
一些可能的实现方式中,所述特征组合模块803包括:
第一确定单元,用于确定所述M个特征项对应的领域;
第二确定单元,用于在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
特征组合单元,用于对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,所述第二确定单元包括:
获取子单元,用于获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
第一确定子单元,用于根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
第二确定子单元,用于根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
一些可能的实现方式中,所述第二确定子单元具体用于:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
一些可能的实现方式中,所述特征组合单元包括:
第一组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
第二组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,所述特征提取模块802包括:
特征提取单元,用于对所述属性信息和所述历史行为信息进行特征提取,得到所述第一用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息;
降维处理单元,用于对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
一些可能的实现方式中,所述降维处理单元包括下述中的至少一项:
第一降维处理子单元,用于分别对所述第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理;
第二降维处理子单元,用于删除所述第二用户特征信息中的至少部分特征项对应的特征信息。
一些可能的实现方式中,所述分类模块804包括:
第三确定单元,用于根据所述第一用户特征信息,确定所述第一用户的目标类别为预设类别的第一概率;
第四确定单元,用于根据所述多个组合特征信息,确定所述第一用户的目标类别为所述预设类别的第二概率;
第五确定单元,用于根据所述第一概率和所述第二概率,确定所述第一用户的目标类别为所述预设类别或者非预设类别。
一些可能的实现方式中,所述特征提取模块802,具体用于通过预设模型根据所述第一用户的属性信息和历史行为信息,确定所述第一用户对应的第一用户特征信息;
所述特征组合模块803,具体用于通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
所述分类模块804,具体用于通过所述预设模型对所述第一用户特征信息和所述多个组合特征信息进行处理,得到所述第一用户的目标类别。
一些可能的实现方式中,本实施例提供的数据处理装置还包括:
显示模块,用于显示所述第一用户的目标类别;或者,
发送模块,用于向预设设备发送所述第一用户的目标类别。
本实施例提供的数据处理装置可用于执行上述任一方法实施例中的数据处理方法,其实现原理和技术效果类似,此处不作赘述。
图9为本公开实施例提供的一种模型训练装置的结构示意图。本实施例提供的模型训练装置可以为图2中的训练设备,或者为设置为训练设备中的模块、单元、处理芯片、模组等。如图9所示,本实施例提供的模型训练装置900包括:
获取模块901,用于获取样本用户的属性信息、历史行为信息和标记类别;
特征提取模块902,用于通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块903,用于通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块904,用于通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别;
更新模块905,用于根据所述标记类别和所述预设类别,对所述预设模型的模型参数进行更新。
一些可能的实现方式中,所述特征组合模块903包括:
第一确定单元,用于确定所述M个特征项对应的领域;
第二确定单元,在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
特征组合单元,用于对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,所述第二确定单元包括:
获取子单元,用于获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
第一确定子单元,用于根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
第二确定子单元,用于根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
一些可能的实现方式中,所述第二确定子单元具体用于:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
一些可能的实现方式中,所述特征组合单元包括:
第一组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
第二组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
一些可能的实现方式中,所述特征提取模块902包括:
特征提取单元,用于对所述属性信息和所述历史行为信息进行特征提取,得到所述第一用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息;
降维处理单元,用于对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
一些可能的实现方式中,所述降维处理单元包括下述中的至少一项:
第一降维处理子单元,用于分别对所述第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理;
第二降维处理子单元,用于删除所述第二用户特征信息中的至少部分特征项对应的特征信息。
一些可能的实现方式中,所述分类模块904包括:
第三确定单元,用于根据所述第一用户特征信息,确定所述第一用户的目标类别为预设类别的第一概率;
第四确定单元,用于根据所述多个组合特征信息,确定所述第一用户的目标类别为所述预设类别的第二概率;
第五确定单元,用于根据所述第一概率和所述第二概率,确定所述第一用户的目标类别为所述预设类别或者非预设类别。
本实施例提供的模型训练装置,可用于执行上述任一方法实施例提供的模型训练方法,其实现原理和计算效果类似,此处不作赘述。
需要说明的是,本实施例中的用户属性信息、历史行为信息并不是针对某一特定用户的属性信息、历史行为信息,并不能反映出某一特定用户的个人信息。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如数据处理方法/模型训练方法。例如,在一些实施例中,数据处理方法/模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的数据处理方法/模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法/模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (33)
1.一种数据处理方法,包括:
获取第一用户的属性信息和历史行为信息;
根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
2.根据权利要求1所述的方法,其中,对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息,包括:
确定所述M个特征项对应的领域;
在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
3.根据权利要求2所述的方法,其中,在所述M个特征项中确定出多个特征项集合,包括:
获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
4.根据权利要求3所述的方法,其中,根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合,包括:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
5.根据权利要求2至4任一项所述的方法,其中,对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息,包括:
对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
6.根据权利要求1至5任一项所述的方法,其中,根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,包括:
对所述属性信息和所述历史行为信息进行特征提取,得到所述第一用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息;
对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
7.根据权利要求6所述的方法,其中,对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,包括:
对所述第二用户特征信息进行如下处理中的至少一项,得到所述第一用户特征信息:
分别对所述第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理;
删除所述第二用户特征信息中的至少部分特征项对应的特征信息。
8.根据权利要求1至7任一项所述的方法,其中,根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别,包括:
根据所述第一用户特征信息,确定所述第一用户的目标类别为预设类别的第一概率;
根据所述多个组合特征信息,确定所述第一用户的目标类别为所述预设类别的第二概率;
根据所述第一概率和所述第二概率,确定所述第一用户的目标类别为所述预设类别或者非预设类别。
9.根据权利要求1至8任一项所述的方法,其中,根据所述第一用户的属性信息和历史行为信息,确定所述第一用户对应的第一用户特征信息,包括:
通过预设模型根据所述第一用户的属性信息和历史行为信息,确定所述第一用户对应的第一用户特征信息;
对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息,包括:
通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别,包括:
通过所述预设模型对所述第一用户特征信息和所述多个组合特征信息进行处理,得到所述第一用户的目标类别。
10.根据权利要求1至9任一项所述的方法,根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别之后,还包括:
显示所述第一用户的目标类别;或者,
向预设设备发送所述第一用户的目标类别。
11.一种模型训练方法,包括:
获取样本用户的属性信息、历史行为信息和标记类别;
通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别;
根据所述标记类别和所述预测类别,对所述预设模型的模型参数进行更新。
12.根据权利要求11所述的方法,其中,对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息,包括:
确定所述M个特征项对应的领域;
在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
13.根据权利要求12所述的方法,其中,在所述M个特征项中确定出多个特征项集合,包括:
获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
14.根据权利要求13所述的方法,其中,根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合,包括:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
15.根据权利要求12至14任一项所述的方法,其中,对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息,包括:
对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
16.一种数据处理装置,包括:
获取模块,用于获取第一用户的属性信息和历史行为信息;
特征提取模块,用于根据所述属性信息和所述历史行为信息,确定所述第一用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块,用于对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块,用于根据所述第一用户特征信息和所述多个组合特征信息,确定所述第一用户的目标类别。
17.根据权利要求16所述的装置,其中,所述特征组合模块包括:
第一确定单元,用于确定所述M个特征项对应的领域;
第二确定单元,在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
特征组合单元,用于对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
18.根据权利要求17所述的装置,其中,所述第二确定单元包括:
获取子单元,用于获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
第一确定子单元,用于根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
第二确定子单元,用于根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
19.根据权利要求18所述的装置,其中,所述第二确定子单元具体用于:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
20.根据权利要求17至19任一项所述的装置,其中,所述特征组合单元包括:
第一组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
第二组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
21.根据权利要求16至20任一项所述的装置,其中,所述特征提取模块包括:
特征提取单元,用于对所述属性信息和所述历史行为信息进行特征提取,得到所述第一用户对应的第二用户特征信息,所述第二用户特征信息中包括多个特征项对应的特征信息;
降维处理单元,用于对所述第二用户特征信息进行降维处理,得到所述第一用户特征信息,所述第一用户特征信息的维度低于所述第二用户特征信息的维度。
22.根据权利要求21所述的装置,其中,所述降维处理单元包括下述中的至少一项:
第一降维处理子单元,用于分别对所述第二用户特征信息中的至少部分特征项对应的特征信息进行降维处理;
第二降维处理子单元,用于删除所述第二用户特征信息中的至少部分特征项对应的特征信息。
23.根据权利要求16至22任一项所述的装置,其中,所述分类模块包括:
第三确定单元,用于根据所述第一用户特征信息,确定所述第一用户的目标类别为预设类别的第一概率;
第四确定单元,用于根据所述多个组合特征信息,确定所述第一用户的目标类别为所述预设类别的第二概率;
第五确定单元,用于根据所述第一概率和所述第二概率,确定所述第一用户的目标类别为所述预设类别或者非预设类别。
24.根据权利要求16至23任一项所述的装置,其中,
所述特征提取模块,具体用于通过预设模型根据所述第一用户的属性信息和历史行为信息,确定所述第一用户对应的第一用户特征信息;
所述特征组合模块,具体用于通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
所述分类模块,具体用于通过所述预设模型对所述第一用户特征信息和所述多个组合特征信息进行处理,得到所述第一用户的目标类别。
25.根据权利要求16至24任一项所述的装置,还包括:
显示模块,用于显示所述第一用户的目标类别;或者,
发送模块,用于向预设设备发送所述第一用户的目标类别。
26.一种模型训练装置,包括:
获取模块,用于获取样本用户的属性信息、历史行为信息和标记类别;
特征提取模块,用于通过预设模型根据所述属性信息和所述历史行为信息,确定所述样本用户对应的第一用户特征信息,所述第一用户特征信息包括M个特征项对应的特征信息,所述M为大于1的整数;
特征组合模块,用于通过所述预设模型对所述M个特征项中不同特征项对应的特征信息进行组合,得到多个组合特征信息;
分类模块,用于通过所述预设模型根据所述第一用户特征信息和所述多个组合特征信息,确定所述样本用户的预测类别;
更新模块,用于根据所述标记类别和所述预测类别,对所述预设模型的模型参数进行更新。
27.根据权利要求26所述的装置,其中,所述特征组合模块包括:
第一确定单元,用于确定所述M个特征项对应的领域;
第二确定单元,用于在所述M个特征项中确定出多个特征项集合,每个特征项集合中包括对应同一领域的至少两个特征项;
特征组合单元,用于对同一特征项集合中的各特征项对应的特征信息进行组合,得到所述特征项集合对应的所述组合特征信息。
28.根据权利要求27所述的装置,其中,所述第二确定单元包括:
获取子单元,用于获取预设的特征项层级关系,所述特征项层级关系用于指示多个特征项之间的层级关系;
第一确定子单元,用于根据所述特征项层级关系,确定所述M个特征项对应的特征层级;
第二确定子单元,用于根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出多个特征项集合。
29.根据权利要求28所述的装置,其中,所述第二确定子单元具体用于:
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出K个第一特征项集合,每个第一特征项集合中包括至少两个第一特征项,所述至少两个第一特征项对应同一领域,且所述至少两个第一特征项对应不同的特征层级,所述K为大于或者等于1的整数;
根据所述M个特征项对应的特征层级、以及所述M个特征项对应的领域,在所述M个特征项中确定出P个第二特征项集合,每个第二特征项集合中包括至少两个第二特征项,所述至少两个第二特征项对应同一领域,且所述至少两个第二特征项对应同一特征层级,所述P为大于或者等于1的整数;
将所述K个第一特征项集合和所述P个第二特征项集合,确定为所述多个特征项集合。
30.根据权利要求27至29任一项所述的装置,其中,所述特征组合单元包括:
第一组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行拼接,得到所述特征项集合对应的所述组合特征信息;或者,
第二组合子单元,用于对同一特征项集合中的各特征项对应的特征信息进行预设运算,得到所述特征项集合对应的所述组合特征信息。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法,或者,执行权利要求11至15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法,或者,权利要求11至15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法,或者,权利要求11至15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148468.XA CN114547448B (zh) | 2022-02-17 | 2022-02-17 | 数据处理、模型训练方法、装置、设备、存储介质及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148468.XA CN114547448B (zh) | 2022-02-17 | 2022-02-17 | 数据处理、模型训练方法、装置、设备、存储介质及程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547448A true CN114547448A (zh) | 2022-05-27 |
CN114547448B CN114547448B (zh) | 2023-09-01 |
Family
ID=81674909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210148468.XA Active CN114547448B (zh) | 2022-02-17 | 2022-02-17 | 数据处理、模型训练方法、装置、设备、存储介质及程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547448B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202012013130U1 (de) * | 2012-10-10 | 2014-12-15 | Nugg.Ad Ag | Prädiktives verhaltensorientiertes Targeting |
CN106407406A (zh) * | 2016-09-22 | 2017-02-15 | 国信优易数据有限公司 | 一种文本处理方法和系统 |
CN112364937A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 用户类别确定方法及装置、推荐内容确定方法、电子设备 |
CN112632351A (zh) * | 2020-12-28 | 2021-04-09 | 北京百度网讯科技有限公司 | 分类模型的训练方法、分类方法、装置及设备 |
CN113626606A (zh) * | 2021-08-31 | 2021-11-09 | 中国平安财产保险股份有限公司 | 信息分类方法、装置、电子设备及可读存储介质 |
CN113962799A (zh) * | 2021-10-22 | 2022-01-21 | 北京百度网讯科技有限公司 | 一种风控模型的训练方法、风险确定方法、装置、设备 |
-
2022
- 2022-02-17 CN CN202210148468.XA patent/CN114547448B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202012013130U1 (de) * | 2012-10-10 | 2014-12-15 | Nugg.Ad Ag | Prädiktives verhaltensorientiertes Targeting |
CN106407406A (zh) * | 2016-09-22 | 2017-02-15 | 国信优易数据有限公司 | 一种文本处理方法和系统 |
CN112364937A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 用户类别确定方法及装置、推荐内容确定方法、电子设备 |
CN112632351A (zh) * | 2020-12-28 | 2021-04-09 | 北京百度网讯科技有限公司 | 分类模型的训练方法、分类方法、装置及设备 |
US20210312288A1 (en) * | 2020-12-28 | 2021-10-07 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training classification model, classification method, apparatus and device |
CN113626606A (zh) * | 2021-08-31 | 2021-11-09 | 中国平安财产保险股份有限公司 | 信息分类方法、装置、电子设备及可读存储介质 |
CN113962799A (zh) * | 2021-10-22 | 2022-01-21 | 北京百度网讯科技有限公司 | 一种风控模型的训练方法、风险确定方法、装置、设备 |
Non-Patent Citations (1)
Title |
---|
向来生;孙威;刘希玉;: "基于SAS的web文本分类模型研究", 山东师范大学学报(自然科学版), no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN114547448B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580733B (zh) | 分类模型的训练方法、装置、设备以及存储介质 | |
CN110909540B (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
CN114036398A (zh) | 内容推荐和排序模型训练方法、装置、设备以及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN116343233B (zh) | 文本识别方法和文本识别模型的训练方法、装置 | |
CN113033194A (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN115982654A (zh) | 一种基于自监督图神经网络的节点分类方法及装置 | |
CN114139052B (zh) | 用于智能推荐的排序模型训练方法、智能推荐方法及装置 | |
CN112948584B (zh) | 短文本分类方法、装置、设备以及存储介质 | |
CN114817476A (zh) | 语言模型的训练方法、装置、电子设备和存储介质 | |
CN114547448B (zh) | 数据处理、模型训练方法、装置、设备、存储介质及程序 | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
CN112860626B (zh) | 一种文档排序方法、装置及电子设备 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN111695036B (zh) | 内容推荐方法及装置 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN113807391A (zh) | 任务模型的训练方法、装置、电子设备及存储介质 | |
CN113850072A (zh) | 文本情感分析方法、情感分析模型训练方法、装置、设备及介质 | |
CN113094584A (zh) | 推荐学习资源的确定方法和装置 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN111325350A (zh) | 可疑组织发现系统和方法 | |
CN114565030B (zh) | 特征筛选方法、装置、电子设备和存储介质 | |
CN116383491B (zh) | 信息推荐方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |