CN114547482B - 业务特征生成方法、装置、电子设备及存储介质 - Google Patents
业务特征生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114547482B CN114547482B CN202210201910.0A CN202210201910A CN114547482B CN 114547482 B CN114547482 B CN 114547482B CN 202210201910 A CN202210201910 A CN 202210201910A CN 114547482 B CN114547482 B CN 114547482B
- Authority
- CN
- China
- Prior art keywords
- service
- feature
- type
- preset
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及人工智能技术领域,提供了一种业务特征生成方法、装置、电子设备及存储介质,所述方法包括:获取业务数据,其中,业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;基于预设的特征类型数,对业务数据进行分析,确定业务数据中存在的特征类型与业务数据之间的特征关联关系,其中,特征类型的个数为特征类型数,特征类型数小于预设业务类型的类型数;根据特征关联关系,计算每一用户的业务特征,其中,业务特征的维度为特征类型数。本发明实施例可以有效降低业务特征的维度,进而缩减训练数据量,最终提高了训练效率。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种业务特征生成方法、装置、电子设备及存储介质。
背景技术
在人工智能技术领域中,将用户进行的业务数据作为训练数据进行训练时,由于用户数量巨大,业务数据涉及到的业务类型也比较多,直接将每一业务类型作为一个业务特征,会导致业务特征的维度过大,进而导致训练数据量过大,严重影响训练效率。
发明内容
本发明的目的在于提供了一种业务特征生成方法、装置、电子设备及存储介质,其能够通过降低业务特征的维度,缩减训练数据量,以提高训练效率。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供一种业务特征生成方法,所述方法包括:获取业务数据,其中,所述业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系,其中,所述特征类型的个数为所述特征类型数,所述特征类型数小于所述预设业务类型的类型数;根据所述特征关联关系,计算所述每一用户的业务特征,其中,所述业务特征的维度为所述特征类型数。
进一步地,所述基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系的步骤包括:
将所述特征类型数及所述业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,所述第一关联关系用于表征所述每一用户与每一特征类型之间的相关性,所述第二关联关系用于表征每一所述预设业务类型相对于每一所述特征类型的权重关系,所述特征关联关系包括所述第一关联关系和所述第二关联关系。
进一步地,所述根据所述特征关联关系,计算所述每一用户的业务特征的步骤包括:
对于所述多个用户中任一目标用户及所述目标用户的任一目标特征类型,根据所述第一关联关系,获取所述目标用户与所述目标特征类型之间的关联值;
根据所述第二关联关系,获取每一所述预设业务类型相对于所述目标特征类型的权重值;
依据所述关联值及所有预设业务类型相对于所述目标特征类型的权重值,计算所述目标用户的目标特征类型的特征值;
将所述目标用户的所有特征类型的特征值,作为所述目标用户的业务特征,最终得到所述每一用户的业务特征。
进一步地,所述第一关联关系用第一关联矩阵表示,所述第二关联关系用第二关联矩阵表示,其中,所述第一关联矩阵的行数和列数分别与所述用户的数量及所述特征类型数相同,所述第一关联矩阵中的任一第一元素表征所述第一元素所属的行对应的用户与所述第一元素所属的列对应的特征类型之间的关联值,所述第二关联矩阵的行数和列数分别与所述特征类型数及所述预设业务类型数相同,所述第二关联矩阵中任一第二元素表征所述第二元素所属的列对应的所述预设业务类型相对于所述第二元素所属的行对应的特征类型的权重值。
进一步地,所述多个用户中任意两个用户进行的相同的预设业务类型的个数小于所述预设业务类型的类型数。
第二方面,本发明实施例提供一种业务特征生成装置,所述装置包括:获取模块,用于获取业务数据,其中,所述业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;分析模块,用于基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系,其中,所述特征类型的个数为所述特征类型数,所述特征类型数小于所述预设业务类型的类型数;计算模块,用于根据所述特征关联关系,计算所述每一用户的业务特征,其中,所述业务特征的维度为所述特征类型数。
进一步地,所述分析模块具体用于:将所述特征类型数及所述业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,所述第一关联关系用于表征所述每一用户与每一特征类型之间的相关性,所述第二关联关系用于表征每一所述预设业务类型相对于每一所述特征类型的权重关系,所述特征关联关系包括所述第一关联关系和所述第二关联关系。
进一步地,所述多个用户中任意两个用户进行的相同的预设业务类型的个数小于所述预设业务类型的类型数。
第三方面,本发明实施例还提供了一种电子设备,包括处理器和存储器;所述存储器用于存储程序;所述处理器用于在执行所述程序时,实现上述第一方面中的业务特征生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中的业务特征生成方法。
相对于现有技术,本发明实施例提供的业务特征生成方法、装置、电子设备及存储介质,当需要生成数据的业务特征时,获取多个用户中每一用户进行至少一种预设业务数据类型时产生的业务数据,基于预设的特征类型数,对所述业务数据进行分析,确定业务数据中存在的特征类型与所述业务数据之间的特征关联关系,再根据特征关联关系,计算每一用户的业务特征,由于每一用户的业务特征的维度为特征类型数,且特征类型数小于预设业务类型的类型数,因此,与传统的将每一预设业务类型作为一个业务特征的维度相比,本发明实施例可以有效降低业务特征的维度,进而缩减训练模型时的训练数据量,最终提高了模型的训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种业务特征生成方法的流程图。
图2为本发明实施例提供的另一种业务特征生成方法的流程图。
图3为本发明实施例提供的业务特征生成装置的方框示意图。
图4为本发明实施例提供的电子设备的方框示意图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;100-业务特征生成装置;110-获取模块;120-分析模块;130-计算模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
在模型训练时,通常会获取大量的原始数据,然后将原始数据进行预处理,剔除掉其中明显不合理的数据,将剩余的正常数据按照一定的方法进行编码,再将编码后的数据作为模型的输入,对模型进行训练。一种常用的方式是将正常数据进行人工归类,人工归类导致工作量非常巨大,人工成本上升,且容易出错,另外,不同场景下,同一个数据可能需要归为不同的类别,人工归类只能预先固定类别,无法方便地自适应不同场景,为了克服人工归类存在的缺陷,另一种常用的方式是将数据进行one-hot编码,one-hot编码也称为读热编码,对于每一个特征,如果该特征有m个可能值,那么经过独热编码后,就变成了m个二元特征,one-hot编码实现简单,且对于离散数据而言,利用one-hot编码的特征,会让特征之间进行距离计算时更合理,最终使得训练出的模型的效果也比较好。
但是利用one-hot编码后的特征数据的维度通常非常巨大,编码后的特征数据非常稀疏,这样会使计算代价变大,模型训练效率降低。
结合应用场景,原始数据可以为用户进行一类或者多类业务时产生的数据,用户进行的业务可以是用户使用APP或者访问网站,业务数据可以是用户使用APP的时长或者在网站停留的时长,或者是用户使用APP或者访问网站时消耗的流量。以用户使用APP为例,一种方式是对用户使用的所有APP进行人工分类,例如,把汽车加油类APP和汽车违章缴费类APP归纳为汽车类,对于不同的应用场景,归类方式也不一样,例如,在一种场景下,女性相关的APP,需要被分别归类为化妆品、服装、生理期管理等类别,在另一种场景下,女性相关的APP,需要被归类为女性专属APP这一个类别。另一种one-hot编码方式,由于用户量大,不同用户使用的APP也有差别,囊括所有用户使用的所有APP可能多达数万个,如果一个APP作为一个特征,则one-hot编码出的特征的维度也可能多达数万个,会严重影响计算效率,并且,大部分APP的用户其实非常少,导致绝大多数用户在该APP对应的特征下的数据为空,由此加重了特征数据的稀疏问题,最终影响模型的训练效率和效果。
有鉴于此,本发明实施例提供了一种业务特征生成方法、装置、电子设备及存储介质,可以有效降低业务特征的维度,进而缩减训练数据量,最终提高了训练效率,是训练模型达到预期效果,下面将对其进行详细描述。
请参考图1,图1为本发明实施例提供的一种业务特征生成方法的流程图,该方法包括以下步骤:
步骤S101,获取业务数据,其中,业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据。
在本实施例中,作为一种具体实现方式,业务数据可以是用户访问APP的访问时长,也可以是对访问时长进行处理之后的数据,例如,将访问时长进行对数运算,用得到的运算结果表征用户对该APP的喜爱程度,对于未访问的APP,其访问时长设置为0。作为另一种具体实现方式,业务数据可以是用户访问APP的访问频率,即特定时长内用户访问APP的次数,或者是对访问频率进行处理之后的数据。
在本实施例中,任意两个用户进行业务的业务类型可以相同,也可以不同,任意两个用户进行的业务类型的个数可以相同,也可以不同,预设业务类型包括所有用户访问的所有业务类型,例如,用户A访问的APP为3个,分别为:APP1、APP2和APP3,用户B访问的APP为2个,分别为:APP3和APP4,则预设业务类型为4个,分别为:APP1~APP4。
步骤S102,基于预设的特征类型数,对业务数据进行分析,确定业务数据中存在的特征类型与业务数据之间的特征关联关系,其中,特征类型的个数为特征类型数,特征类型数小于预设业务类型的类型数。
在本实施例中,特征类型数可以根据实际场景进行预先设置,用于表示特征类型的个数,例如,特征类型数设置为10,为了避免最终确定的业务特征的维度不会太大,达到明显比one-hot编码好的效果,将特征类型数设置为小于预设业务类型的类型数。
在本实施例中,对业务数据进行分析,可以是将业务数据按照特征类型数进行聚合,将相似度高的业务数据划分为同一个特征类型,由此,将业务数据分为特征类型数个集合。同一个集合中的不同的业务数据归属于该特征类型的权重也会有差别。
步骤S103,根据特征关联关系,计算每一用户的业务特征,其中,业务特征的维度为特征类型数。
在本实施例中,业务特征用于表征用户进行业务的业务特性,所有用户的业务特征的维度均相同,即为特征类型数,由此可以将所有用户的业务特征进行维度的统一,避免了数据稀疏化严重的问题。
本实施例提供的上述方法,通过对业务数据进行分析,确定业务数据中存在的特征类型与业务数据之间的特征关联关系,再根据特征关联关系,计算每一用户的业务特征,由于每一用户的业务特征的维度为特征类型数,且特征类型数小于预设业务类型的类型数,因而可以有效降低业务特征的维度,进而缩减训练数据量,最终提高了训练效率。
在图1的基础上,本实施例还提供了一种确定特征关联关系的具体实现方式,请参照图2,图2为本发明实施例提供的另一种业务特征生成方法的流程图,步骤S102包括以下子步骤:
子步骤S1021,将特征类型数及业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,第一关联关系用于表征每一用户与每一特征类型之间的相关性,第二关联关系用于表征每一预设业务类型相对于每一特征类型的权重关系,特征关联关系包括第一关联关系和第二关联关系。
在本实施例中,业务数据包括用户及用户进行预设业务类型的业务数据,隐语义模型LFM(Latent factor model,LFM)的目的在于找出潜在的主题或分类,协同过滤分析是指利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的记录也相当重要。也就是说,利用LFM模型分析的目的在于:将业务数据按照特征类型进行聚合,并且确定业务数据与特征类型之间的关联关系,由于业务数据包括用户及用户进行预设业务类型的业务数据,则该关联关系包括用户与特征类型之间的第一关联关系及预设业务类型与特征类型之间的第二关联关系。其中,第一关联关系表征的关联性可以使用关联概率表示。
利用LFM模型分析的好处在于:(1)无需像人工分类那样关心具体的特征类型的分类角度,具体的特征分类是基于业务数据自动聚合的;(2)不需要关心特征类型分类粒度的问题,通过设置特征类型数就可以实现粒度的控制,特征类型数越大,粒度越细;(3)对于一个预设业务类型的业务数据,不是明确地将其划分为某一个确定的特征类型,而是计算其属于每一特征类型的概率,即第一关联关系;(4)对于一个用户,可以得知该用户和每一特征类型的关联程度;(5)对于每一个特征类型,可以得知每一预设业务类型相对于每一特征类型的权重关系,权重越高,对应的特征类型越能体现预设业务类型的业务数据的特性。
在图2提供的确定特征关联关系的具体实现方式的基础上,本发明实施例还提供了一种具体计算每一用户的业务特征的实现方式,请继续参照图2,步骤S103包括以下子步骤:
子步骤S1031,对于多个用户中任一目标用户及目标用户的任一目标特征类型,根据第一关联关系,获取目标用户与目标特征类型之间的关联值。
在本实施例中,第一关联关系可以表示所有用户与所有特征类型之间的关系,因此,从第一关联关系中可以获取所有用户中任一目标用户与所有特征类型中任一目标特征类型之间的关联值,该关联值可以是一个概率值,即表征目标用户与目标特征类型之间存在关联的概率,以特征类型为用户感兴趣的主题为例,该概率值可以表征目标用户对目标主题感兴趣的程度,概率值越大,则感兴趣的程度越高。
子步骤S1032,根据第二关联关系,获取每一预设业务类型相对于目标特征类型的权重值。
在本实施例中,第二关联关系可以表示所有预设业务类型相对于所有特征类型的权重值,因此,从第二关联关系中可以获取每一预设业务类型相对于目标特征类型的权重值,即每一预设业务类型能够代表目标特征类型的权重值,权重值越高,则越能代表目标特征类型。以特征类型为用户感兴趣的主题、预设业务类型为用户使用的APP为例,用户使用的APP为:APP1~APP3,若APP1相对于目标主题的权重值最高,则可以认为,APP1对于目标主题来说最具有代表性,最能代表目标主题。
子步骤S1033,依据关联值及所有预设业务类型相对于目标特征类型的权重值,计算目标用户的目标特征类型的特征值。
在本实施例中,对于目标用户而言,每一特征类型对应一个特征值,每一特征类型对应的特征值的计算方式与目标特征类型的特征值的计算方式一样。
子步骤S1034,将目标用户的所有特征类型的特征值,作为目标用户的业务特征,最终得到每一用户的业务特征。
在本实施例中,可以将目标用户的所有特征类型的特征值进行组合,得到目标用户的业务特征,也可以将其进行再编码后得到目标用户的业务特征。
在本实施例中,对每一个用户均采用与目标用户相同的方式,即可得到每一用户的业务特征。
本实施例提供的上述方法,通过确定表征每一用户与每一特征类型之间的相关性的第一关联关系即表征每一预设业务类型相对于每一特征类型的权重关系,且通过第一关联关系和第二关联关系,确定每一用户的业务特征,使得最终得到的业务特征更能准确、更全面地反应业务数据的真实业务特征。
在本实施例中,为了更清楚地说明业务特征的计算过程,以业务数据表示成业务矩阵、关联关系表示成关联矩阵为例进行说明,第一关联关系用第一关联矩阵表示,第二关联关系用第二关联矩阵表示,其中,第一关联矩阵的行数和列数分别与用户的数量及特征类型数相同,第一关联矩阵中的任一第一元素表征第一元素所属的行对应的用户与第一元素所属的列对应的特征类型之间的关联值,第二关联矩阵的行数和列数分别与特征类型数及预设业务类型数相同,第二关联矩阵中任一第二元素表征第二元素所属的列对应的预设业务类型相对于第二元素所属的行对应的特征类型的权重值。
业务矩阵用U表示,U为M行N列矩阵,M为用户的数量,N为预设业务类型的数量,第一关联矩阵用R1表示,R1为M行L列矩阵,L为特征类型数,第二关联矩阵用R2表示,R2为L行N列矩阵,对于用户i的业务特征表示为:[Si1,Si2,…,Sij,SiL],Sij为用户i的第j个特征类型的特征值,则Sij可以用如下公式计算:
例如,业务矩阵如表1所示:
表1
表1中包括A、B、C三个用户,包括预设业务类型1~预设业务类型4共4个预设业务类型。
以特征类型数为2举例,经过LFM分析确定的第一关联矩阵和第二关联矩阵分别如下表2和表3所示:
表2
用户 | 特征类型1 | 特征类型2 |
A | TA1 | TA2 |
B | TB1 | TB2 |
C | TC1 | TC2 |
表3
以目标用户为用户A,目标特征类型为特征类型1为例,A的特征类型1的特征值t1的计算方式为:t1=TA1*(W11+W12+W13+W14)/4,A的特征类型2的特征值t2的计算方式为:t2=TA2*(W21+W22+W23+W24)/4,则A的业务特征可以表示为:[t1,t2]。
需要说明的是,预设业务类型的类型数越多,特征类型数与预设业务类型的类型数相差越远,则越能有效地缩减训练数据量。
在本实施例中,除了预设业务类型的类型数比较多的情况,还可能同时存在另一种常见的情况,即多个用户中任意两个用户进行的相同的预设业务类型的个数小于预设业务类型的类型数,例如,用户A进行的预设业务类型为类型1、类型2、类型10~类型15,用户B进行的预设业务类型为类型1~3、类型9,用户C进行的预设业务类型为类型20,多个用户进行业务的业务类型不完全相同,此时出现稀疏矩阵的概率比较大,而采用本发明实施例提供的上述方法可以将所有用户的业务特征在维度上对齐,以方便进行模型训练。
为了更方便地将one-hot表示的业务特征和本发明实施例提供的方法得到的业务特征进行对比,本实施例以用户使用APP为例进行说明,用户1使用的APP为3个:APP1~APP2、APP4,用户2使用的APP为4个:APP2~APP5,则预设业务类型共5个:APP1~APP5。
若用one-hot编码,则用户1的业务特征表示为:[1,1,0,1,0],用户2的业务特征表示为:[0,1,1,1,1],业务特征的维度为5,且用户越多,APP越多,则业务特征对应的矩阵为稀疏矩阵的概率越大。
采用本发明实施例提供的方法,以特征类型数为3为例,第一关联矩阵为:第二关联矩阵为:则用户1的业务特征表示为:[0.5*(0.1+0.2+0.1+0.4+0.8)/5,0.7*(0.3+0.6+0.6+0.4+0.1)/5,0.9*(0.6+0.2+0.3+0.2+0.1)/5],即[0.16,0.28,0.252],用户2的业务特征表示为:[0.5*(0.1+0.2+0.1+0.4+0.8)/5,0.3*(0.3+0.6+0.6+0.4+0.1)/5,0.1*(0.6+0.2+0.3+0.2+0.1)/5],即[0.16,0.12,0.028],两个用户的业务特征的维度对齐,均为3。
为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种业务特征生成装置100的实现方式。请参照图3,图3示出了本发明实施例提供的业务特征生成装置100的方框示意图。需要说明的是,本实施例所提供的业务特征生成装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
业务特征生成装置100包括获取模块110、分析模块120及计算模块130。
获取模块110,用于获取业务数据,其中,业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据。
分析模块120,用于基于预设的特征类型数,对业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系,其中,特征类型的个数为特征类型数,特征类型数小于预设业务类型的类型数。
进一步地,分析模块120具体用于:
将特征类型数及业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,第一关联关系用于表征每一用户与每一特征类型之间的相关性,第二关联关系用于表征每一预设业务类型相对于每一特征类型的权重关系,特征关联关系包括第一关联关系和第二关联关系。
进一步地,第一关联关系用第一关联矩阵表示,第二关联关系用第二关联矩阵表示,其中,第一关联矩阵的行数和列数分别与用户的数量及特征类型数相同,第一关联矩阵中的任一第一元素表征第一元素所属的行对应的用户与第一元素所属的列对应的特征类型之间的关联值,第二关联矩阵的行数和列数分别与特征类型数及预设业务类型数相同,第二关联矩阵中任一第二元素表征第二元素所属的列对应的预设业务类型相对于第二元素所属的行对应的特征类型的权重值。
进一步地,多个用户中任意两个用户进行的相同的预设业务类型的个数小于预设业务类型的类型数。
计算模块130,用于根据特征关联关系,计算每一用户的业务特征,其中,业务特征的维度为特征类型数。
进一步地,计算模块130具体用于:对于多个用户中任一目标用户及目标用户的任一目标特征类型,根据第一关联关系,获取目标用户与目标特征类型之间的关联值;根据第二关联关系,获取每一预设业务类型相对于目标特征类型的权重值;依据关联值及所有预设业务类型相对于目标特征类型的权重值,计算目标用户的目标特征类型的特征值;将目标用户的所有特征类型的特征值,作为标用户的业务特征,最终得到所每一用户的业务特征。
请参照图4,图4为本发明实施例提供的电子设备10的方框示意图,电子设备10可以是实体的主机,也可以是与实体的主机实现相同功能的虚拟机,还可以是服务器、服务器集群、云端服务器,或者是移动终端等。电子设备10包括处理器11、存储器12、总线13。处理器11、存储器12通过总线13通信。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如,本发明实施例中图3中的业务特征生成装置100,业务特征生成装置100包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现本发明实施例中的业务特征生成方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图4仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
综上所述,本发明实施例提供了一种业务特征生成方法、装置、电子设备及存储介质,所述方法包括:获取业务数据,其中,业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;基于预设的特征类型数,对业务数据进行分析,确定业务数据中存在的特征类型与业务数据之间的特征关联关系,其中,特征类型的个数为特征类型数,特征类型数小于预设业务类型的类型数;根据特征关联关系,计算每一用户的业务特征,其中,业务特征的维度为特征类型数。本发明实施例基于预设的特征类型数,对业务数据进行分析,确定业务数据中存在的特征类型与业务数据之间的特征关联关系,再根据特征关联关系,计算每一用户的业务特征,由于每一用户的业务特征的维度为特征类型数,且特征类型数小于预设业务类型的类型数,因此,与传统的将每一预设业务类型作为一个业务特征的维度相比,本发明实施例可以有效降低业务特征的维度,进而缩减训练数据量,最终提高了训练效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种业务特征生成方法,其特征在于,所述方法包括:
获取业务数据,其中,所述业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;
基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系,其中,所述特征类型的个数为所述特征类型数,所述特征类型数小于所述预设业务类型的类型数;
根据所述特征关联关系,计算所述每一用户的业务特征,其中,所述业务特征的维度为所述特征类型数;
所述基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系的步骤包括:
将所述特征类型数及所述业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,所述第一关联关系用于表征所述每一用户与每一特征类型之间的相关性,所述第二关联关系用于表征每一所述预设业务类型相对于每一所述特征类型的权重关系,所述特征关联关系包括所述第一关联关系和所述第二关联关系;
所述根据所述特征关联关系,计算所述每一用户的业务特征的步骤包括:
对于所述多个用户中任一目标用户及所述目标用户的任一目标特征类型,根据所述第一关联关系,获取所述目标用户与所述目标特征类型之间的关联值;
根据所述第二关联关系,获取每一所述预设业务类型相对于所述目标特征类型的权重值;
依据所述关联值及所有预设业务类型相对于所述目标特征类型的权重值,计算所述目标用户的目标特征类型的特征值;
将所述目标用户的所有特征类型的特征值,作为所述目标用户的业务特征,最终得到所述每一用户的业务特征。
2.如权利要求1所述的业务特征生成方法,其特征在于,所述第一关联关系用第一关联矩阵表示,所述第二关联关系用第二关联矩阵表示,其中,所述第一关联矩阵的行数和列数分别与所述用户的数量及所述特征类型数相同,所述第一关联矩阵中的任一第一元素表征所述第一元素所属的行对应的用户与所述第一元素所属的列对应的特征类型之间的关联值,所述第二关联矩阵的行数和列数分别与所述特征类型数及所述预设业务类型数相同,所述第二关联矩阵中任一第二元素表征所述第二元素所属的列对应的所述预设业务类型相对于所述第二元素所属的行对应的特征类型的权重值。
3.如权利要求1所述的业务特征生成方法,其特征在于,所述多个用户中任意两个用户进行的相同的预设业务类型的个数小于所述预设业务类型的类型数。
4.一种业务特征生成装置,其特征在于,所述装置包括:
获取模块,用于获取业务数据,其中,所述业务数据包括多个用户中每一用户进行至少一种预设业务类型的业务时产生的数据;
分析模块,用于基于预设的特征类型数,对所述业务数据进行分析,确定所述业务数据中存在的特征类型与所述业务数据之间的特征关联关系,其中,所述特征类型的个数为所述特征类型数,所述特征类型数小于所述预设业务类型的类型数;
计算模块,用于根据所述特征关联关系,计算所述每一用户的业务特征,其中,所述业务特征的维度为所述特征类型数;
所述分析模块具体用于:
将所述特征类型数及所述业务数据输入至预设的隐语义模型LFM中进行协同过滤分析,确定第一关联关系和第二关联关系,其中,所述第一关联关系用于表征所述每一用户与每一特征类型之间的相关性,所述第二关联关系用于表征每一所述预设业务类型相对于每一所述特征类型的权重关系,所述特征关联关系包括所述第一关联关系和所述第二关联关系;
所述计算模块,具体用于:对于所述多个用户中任一目标用户及所述目标用户的任一目标特征类型,根据所述第一关联关系,获取所述目标用户与所述目标特征类型之间的关联值;根据所述第二关联关系,获取每一所述预设业务类型相对于所述目标特征类型的权重值;依据所述关联值及所有预设业务类型相对于所述目标特征类型的权重值,计算所述目标用户的目标特征类型的特征值;将所述目标用户的所有特征类型的特征值,作为所述目标用户的业务特征,最终得到所述每一用户的业务特征。
5.如权利要求4所述的业务特征生成装置,其特征在于,所述多个用户中任意两个用户进行的相同的预设业务类型的个数小于所述预设业务类型的类型数。
6.一种电子设备,其特征在于,包括处理器和存储器;所述存储器用于存储程序;所述处理器用于在执行所述程序时,实现如权利要求1-3中任一项所述的业务特征生成方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-3中任一项所述的业务特征生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201910.0A CN114547482B (zh) | 2022-03-03 | 2022-03-03 | 业务特征生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201910.0A CN114547482B (zh) | 2022-03-03 | 2022-03-03 | 业务特征生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547482A CN114547482A (zh) | 2022-05-27 |
CN114547482B true CN114547482B (zh) | 2023-01-20 |
Family
ID=81661944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201910.0A Active CN114547482B (zh) | 2022-03-03 | 2022-03-03 | 业务特征生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547482B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325071A (zh) * | 2013-06-09 | 2013-09-25 | 浙江大学 | 一种基于密度聚类的用户典型负荷曲线的构建方法 |
CN106446011A (zh) * | 2016-08-24 | 2017-02-22 | 东软集团股份有限公司 | 数据处理的方法及装置 |
CN107622408A (zh) * | 2016-07-15 | 2018-01-23 | 北京易车互联信息技术有限公司 | 购车线索交易转化的预估方法和预估装置 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN109190013A (zh) * | 2018-06-25 | 2019-01-11 | 广州视源电子科技股份有限公司 | 用户偏好的确定方法、系统、可读存储介质及电子设备 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110765364A (zh) * | 2019-10-22 | 2020-02-07 | 哈尔滨理工大学 | 基于局部优化降维和聚类的协同过滤方法 |
CN110838020A (zh) * | 2019-09-16 | 2020-02-25 | 平安科技(深圳)有限公司 | 基于向量迁移的推荐方法、装置、计算机设备及存储介质 |
CN111680108A (zh) * | 2019-03-11 | 2020-09-18 | 杭州海康威视数字技术股份有限公司 | 一种数据存储方法、装置及一种数据获取方法、装置 |
CN111754116A (zh) * | 2020-06-24 | 2020-10-09 | 国家电网有限公司大数据中心 | 一种基于标签画像技术的信用评估方法及装置 |
CN111966886A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 对象推荐方法、对象推荐装置、电子设备及存储介质 |
CN113220947A (zh) * | 2021-05-27 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 对事件特征进行编码的方法和装置 |
WO2021159714A1 (zh) * | 2020-02-12 | 2021-08-19 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN113723538A (zh) * | 2021-09-02 | 2021-11-30 | 中国人民解放军国防科技大学 | 基于层次化迁移学习的跨平台功耗性能预测方法及系统 |
WO2022012668A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种训练集处理方法和装置 |
CN114036147A (zh) * | 2021-10-28 | 2022-02-11 | 建信金融科技有限责任公司 | 数据仓库构建方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061286A1 (en) * | 2015-08-27 | 2017-03-02 | Skytree, Inc. | Supervised Learning Based Recommendation System |
CN109639816A (zh) * | 2018-12-26 | 2019-04-16 | 广州市巽腾信息科技有限公司 | 用户信息的管理方法、身份识别的方法及装置 |
-
2022
- 2022-03-03 CN CN202210201910.0A patent/CN114547482B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325071A (zh) * | 2013-06-09 | 2013-09-25 | 浙江大学 | 一种基于密度聚类的用户典型负荷曲线的构建方法 |
CN107622408A (zh) * | 2016-07-15 | 2018-01-23 | 北京易车互联信息技术有限公司 | 购车线索交易转化的预估方法和预估装置 |
CN106446011A (zh) * | 2016-08-24 | 2017-02-22 | 东软集团股份有限公司 | 数据处理的方法及装置 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN109190013A (zh) * | 2018-06-25 | 2019-01-11 | 广州视源电子科技股份有限公司 | 用户偏好的确定方法、系统、可读存储介质及电子设备 |
CN111680108A (zh) * | 2019-03-11 | 2020-09-18 | 杭州海康威视数字技术股份有限公司 | 一种数据存储方法、装置及一种数据获取方法、装置 |
CN111966886A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 对象推荐方法、对象推荐装置、电子设备及存储介质 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110838020A (zh) * | 2019-09-16 | 2020-02-25 | 平安科技(深圳)有限公司 | 基于向量迁移的推荐方法、装置、计算机设备及存储介质 |
CN110765364A (zh) * | 2019-10-22 | 2020-02-07 | 哈尔滨理工大学 | 基于局部优化降维和聚类的协同过滤方法 |
WO2021159714A1 (zh) * | 2020-02-12 | 2021-08-19 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN111754116A (zh) * | 2020-06-24 | 2020-10-09 | 国家电网有限公司大数据中心 | 一种基于标签画像技术的信用评估方法及装置 |
WO2022012668A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种训练集处理方法和装置 |
CN113220947A (zh) * | 2021-05-27 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 对事件特征进行编码的方法和装置 |
CN113723538A (zh) * | 2021-09-02 | 2021-11-30 | 中国人民解放军国防科技大学 | 基于层次化迁移学习的跨平台功耗性能预测方法及系统 |
CN114036147A (zh) * | 2021-10-28 | 2022-02-11 | 建信金融科技有限责任公司 | 数据仓库构建方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Light-stacking strengthened fusion based building energy consumption prediction framework via variable weight feature selection;Jian Sun 等;《Applied Energy》;20210901;第303卷;1-14 * |
一种"特征降维"文本复杂网络的话题表示模型;刘冰瑶 等;《数据分析与知识发现》;20171125;第1卷(第11期);53-61 * |
一种基于用户偏好分析和论坛相似度计算的改进LFM推荐算法;巨星海,周刚;《信息工程大学学报》;20210815;第22卷(第04期);433-437+449 * |
Also Published As
Publication number | Publication date |
---|---|
CN114547482A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214248A1 (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN108427708B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
US9176969B2 (en) | Integrating and extracting topics from content of heterogeneous sources | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
WO2019047790A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN110119877B (zh) | 一种目标员工的选取方法及设备 | |
CN111080360B (zh) | 行为预测方法、模型训练方法、装置、服务器及存储介质 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
US20160357845A1 (en) | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium | |
CN108647329A (zh) | 用户行为数据的处理方法、装置及计算机可读存储介质 | |
CN109829154B (zh) | 基于语义的人格预测方法、用户设备、存储介质及装置 | |
CN111522724A (zh) | 异常账号的确定方法、装置、服务器及存储介质 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
CN110968564A (zh) | 一种数据处理方法及数据状态预测模型的训练方法 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN113420946B (zh) | 一种新闻媒体的评价方法 | |
CN112784168B (zh) | 信息推送模型训练方法以及装置、信息推送方法以及装置 | |
CN114547482B (zh) | 业务特征生成方法、装置、电子设备及存储介质 | |
CN109462635B (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
US20140324524A1 (en) | Evolving a capped customer linkage model using genetic models | |
US20140324523A1 (en) | Missing String Compensation In Capped Customer Linkage Model | |
CN106503044B (zh) | 兴趣特征分布获取方法及装置 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |