CN110110213B - 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 - Google Patents

挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 Download PDF

Info

Publication number
CN110110213B
CN110110213B CN201810068937.0A CN201810068937A CN110110213B CN 110110213 B CN110110213 B CN 110110213B CN 201810068937 A CN201810068937 A CN 201810068937A CN 110110213 B CN110110213 B CN 110110213B
Authority
CN
China
Prior art keywords
user
mined
occupation
label
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810068937.0A
Other languages
English (en)
Other versions
CN110110213A (zh
Inventor
张宗一
梁晨曦
谷皓
凌国惠
张功源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810068937.0A priority Critical patent/CN110110213B/zh
Publication of CN110110213A publication Critical patent/CN110110213A/zh
Application granted granted Critical
Publication of CN110110213B publication Critical patent/CN110110213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于机器学习领域,提供了一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。所述方法包括:提取样本用户的特征值并将样本用户的特征值转换为样本用户的特征词;根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量;将待挖掘用户的嵌入向量与每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。本发明提供的技术方案一方面使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,无需大量计算资源,计算速度极快。

Description

挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
技术领域
本发明属于机器学习领域,尤其涉及一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备。
背景技术
伴随着智能移动技术的发展,智能移动终端上安装的应用越来越多。用户通过应用的客户端接入互联网,与其他用户进行广泛的交互。有业界人士统计过,用户通过应用进行交互,在一小时中总共产生的数据是以T(1T=1024G)字节度量的。因此,在数据泛滥的今天,如何通过高效的手段精准挖掘一些应用的用户的信息,例如,社交类应用的用户的职业信息等,是许多业界人士研究和感兴趣的课题。
现有技术在挖掘用户的信息时,往往是基于用户个人的文本类数据进行,但这种方式存在极大的缺陷,其主要原因在于这种处理方式过于依赖自然语言处理技术。然而,理解自然语言,尤其是互联网上常见的短文本,需要大量的背景知识和上下文信息。在缺乏这些信息的情形下,即使是人工也无法准确理解文本的含义,目前的很多计算机算法对文本含义的识别效率和准确率也同样不理想。例如,社交类应用的用户过社交类应用发出一条包含“福田”的短语,由于“福田”既可以指深圳的福田区,又可以指“福田汽车”,在缺乏上下文信息的情形下,现有的挖掘用户的信息方法无法判断这个发出包含“福田”的短语的用户只是居住在深圳福田区的一位普通市民(例如,退休在家的大妈或大爷),还是福田汽车4S店的一位销售人员。
综上,现有的挖掘用户的信息,例如,职业信息的方法召回率和准确率都偏低,无法满足大数据时代人们对信息准确获取的要求。
发明内容
本发明的目的在于提供一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。
本发明第一方面提供一种挖掘用户职业的方法,所述方法包括:
提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;
根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
本发明第二方面提供一种挖掘用户职业的装置,所述装置包括:
特征转换模块,用于提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;
嵌入向量获取模块,用于根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
匹配模块,用于将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
本发明第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下方法的步骤:
提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;
根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法的步骤:
提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;
根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
从上述本发明技术方案可知,一方面,待挖掘用户和职业标签用隶属同一向量空间的嵌入向量表示而非自然语言表示,本质含义相同的词语其嵌入向量之间的距离最短甚至为零,这就使得待挖掘用户的嵌入向量与职业标签嵌入向量进行相似度计算成为可能,也使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,只需要极少数的向量加乘操作即可完成,无需大量计算资源,计算速度极快,适于在计算资源宝贵且要求计算速度快的应用。
附图说明
图1是本发明实施例提供的挖掘用户职业的方法的实现流程示意图;
图2本发明实施例提供的挖掘用户职业的装置的结构示意图;
图3是本发明另一实施例提供的挖掘用户职业的装置的结构示意图;
图4是本发明另一实施例提供的挖掘用户职业的装置的结构示意图;
图5-a是本发明另一实施例提供的挖掘用户职业的装置的结构示意图;
图5-b是本发明另一实施例提供的挖掘用户职业的装置的结构示意图;
图5-c是本发明另一实施例提供的挖掘用户职业的装置的结构示意图;
图6是本发明实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明的技术方案,下面结合社交销售即利用微信等社交软件在网络上发掘潜在客户、拿下订单和维护客户关系的实例来进行说明。
附图1是本发明实施例提供的挖掘用户职业的方法的实现流程示意图,主要包括以下步骤S101至S103,以下详细说明:
S101,提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词。
在本发明实施例中,若以利用微信等社交软件在网络上发掘潜在客户、拿下订单和维护客户关系的社交销售为例,用户可以指微信等社交软件的用户,而样本用户是指其数据将用于后续训练模型的样本数据的用户。样本用户的特征主要是指除了职业类型之外,能够将一个样本用户与另一样本用户区别开来的数据或信息,这些数据或信息的具体取值就是样本用户的特征值。例如,对于一个判断用户信用卡还款能力的机器学习问题,若认为采用样本用户的学历和收入水平衡量就足够了,则可以采用这两个数据去建模预测样本用户的还款能力,在这个示例中,学历和收入水平可以作为“样本用户的特征”,其具体的数值就是“样本用户的特征值”。上述的学历和收入水平等具有静态特征的数据仅仅是“样本用户的特征”的简单示例,实际上,不同职业的用户,其行为特点,例如添加好友、浏览文章、转发文章、发表评论以及这些行为的频率等等也可以作为其特征。例如,利用微信等社交类应用进行社交销售的用户,会在微信等社交类应用上表现出各自的行为特点,这些行为特点也可以视为用户的特征。本发明的技术方案正是利用了社交类应用上丰富的用户行为数据,对用户(包括其数据作为训练模型的样本数据的样本用户)的各种特征值进行提取并转换为适于处理的用户的特征词。所谓特征词,是指采用独特的“词”来表示用户的特征值。由于用户的特征值可以将不同的用户区别开来,因此,在本发明实施例中,用户可以由其一系列的特征值所对应的特征词来表示,即用户的特征词可以用于表示一个用户。
需要说明的是,虽然微信等社交类应用在网络上“贡献”的数据的量极大,但这些数据所对应的特征值不外乎连续、数值型数据、文本类数据和类别型数据(即离散数值)三类,其中,连续、数值型数据的示例包括使用某个功能的时长,可以是一定范围内的任何值,文本类数据的示例可以是用户昵称、个性签名、和转发的公众号文章等,类别型数据的示例可以是只能取少数几个有效值的数据,例如性别就是类别型数据,因其只能取“男”、“女”或“其他”等三个数值中的一个。在本发明实施例中,可以采用不同的特征提取方法,将上述连续、数值型数据、文本类数据和类别型数据三类的特征值转换为相应的特征词,其中,文本类数据的特征值可以采用分词和清理的方式转换为特征词,其中,分词是指将一个短语分开为若干个词,清理是只保留数字、英文字母大小写和所有中文字符,去掉标点符号、表情语言或其他特异符号,类别型数据的特征值可以在离散数值字符串前直接加上特征名作为前缀,生成对应的特征词,在“男”和“女”前直接加上“性别”生成“性别-男”和“性别-女”这两个特征词,而针对连续、数值型数据,则可以采用基于熵的监督式离散化方法来生成特征词,具体是先采用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型来将连续、数值型数据离散化为特征向量,然后用特征词来表示这个特征向量。例如,某个连续、数值型数据采用GBDT模型离散化后的特征向量为[1,0,0,0,1],则可以用“离散化结果-0”和“离散化结果-4”这两个特征词来表示该特征向量。
S102,根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属同一向量空间。
现有技术在挖掘用户的信息时,其严重依赖文字匹配规则,例如,当社交类应用的用户通过社交类应用发出一条包含“美利坚”的短语,如果按照现有挖掘用户的信息方法,仅仅采用“美利坚”作为关键词去搜索、匹配相关信息的话,很难将该用户与“美国”联系起来,因为在计算机看来,“美国”和“美利坚”是完全不同的两个词,但显然本质上两者是指代同一对象。本发明的技术方案却完全可以解决上述问题,其主要原因在于在匹配之前,将数据进行了嵌入(embdding),使得最后得到的嵌入向量不因数据的“字面意思”相差太大而本质含义相同导致不能直接匹配。例如,若对“美国”这个词进行嵌入后,其嵌入向量是[0.998,0.895,0.563,0.698],对“美利坚”这个词进行嵌入后,其嵌入向量可能是[0.996,0.905,0.567,0.700],两者的距离几乎等于0,因而“美国”和“美利坚”被认为是同一个词;再如,若对“售楼小姐”这个词进行嵌入后,其嵌入向量是[0.198,0.834,0.991,0.778],对“年轻的女房产中介人员”这个词进行嵌入后,其嵌入向量可能是[0.201,0.835,0.997,0.777],两者的距离几乎等于0,因而“售楼小姐”和“年轻的女房产中介人员”被认为是同一个词。此外,将用户的特征词和职业标签都映射同一向量空间的嵌入向量,好处在于将数据的维度降低了,这一方面有利于剔除无用信息,减小计算量,另一方面有利于嵌入向量构成的矩阵不过于“稀疏”,从而在数据存储上不浪费空间。
作为本发明一个实施例,根据所述样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量可通过如下步骤S1021和S1022实现:
S1021,使用样本用户的特征词和样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型。
在本发明实施例中,使用样本用户的特征词和样本用户的职业标签训练嵌入向量输出模型可以采用有监督学习方式对嵌入向量输出模型进行训练。所谓有监督学习方式的训练,是指在训练时,同时为被训练的模型提供输入数据和输出数据作为样本数据。例如,此处是使用样本用户的特征词作为嵌入向量输出模型的输入数据,样本用户的职业标签作为嵌入向量输出模型的输出数据对嵌入向量输出模型不断进行训练,最终训练出已训练嵌入向量输出模型。
具体地,使用样本用户的特征词和样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型,包括如下步骤S1和S2:
S1,初始化样本用户的嵌入向量和职业标签嵌入向量。
此处初始化样本用户的嵌入向量和职业标签嵌入向量,主要是指样本用户的嵌入向量和职业标签嵌入向量给出一个初始值,显然,初始化时也包含这些嵌入向量的维度。
S2,以所本用户的特征词和样本用户的职业标签作为样本数据训练嵌入向量输出模型,直至损失函数取值最小时训练结束,训练结束时获得的嵌入向量输出模型作为已训练嵌入向量输出模型。
在本发明实施例中,损失函数为衡量待挖掘用户的实际职业标签和根据已训练嵌入向量输出模型预测出待挖掘用户的职业标签之间差值的函数,显然,最后得到的损失函数的取值越小,表示最后得到的已训练嵌入向量输出模型越优化即使用该模型预测出来的待挖掘用户的职业标签的精准度越高。作为本发明一个实施例,损失函数可以是
Figure BDA0001557579870000071
其中,a表示样本用户A的特征词,b表示样本用户A的职业标签,
Figure BDA0001557579870000075
表示除b之外的职业标签,即和样本用户A步匹配、错误的职业标签,而sim(a,b)或sim(a,
Figure BDA0001557579870000076
)为余弦相似度计算公式,余弦相似度计算公式具体如下:
Figure BDA0001557579870000072
其中,Ai和Bi分别表示向量A和B的分量。
从损失函数
Figure BDA0001557579870000073
的表达式可知,显然在-sim(a,b)最大化、
Figure BDA0001557579870000074
最小化时,损失函数Lbatch的值最小,此时的嵌入向量输出模型是目标的模型即已训练嵌入向量输出模型。
S1022,将职业标签和待挖掘用户的特征词输入已训练嵌入向量输出模型,以输出所有职业标签嵌入向量和待挖掘用户的嵌入向量。
如前所述,已训练嵌入向量输出模型是使用样本用户的特征词和样本用户的职业标签作为样本数据,采用有监督学习方式对嵌入向量输出模型进行训练得到,因此,当将职业标签和待挖掘用户的特征词输入已训练嵌入向量输出模型时,分别对应输出所有职业标签嵌入向量和待挖掘用户的嵌入向量。
需要说明的是,用户的特征词可能包括一系列,即一个用户可能包括多个特征词表征这个客户,而嵌入向量输出模型在计算特征词对应的嵌入向量时,是一个特征词对应计算出一个嵌入向量,因此,在本发明实施例中,嵌入向量输出模型最终输出的用户的嵌入向量是特征词平均的嵌入向量。例如,待挖掘用户的特征词包括特征词1、特征词2、特征词3和特征词4,嵌入向量输出模型计算出的特征词1、特征词2、特征词3和特征词4对应的嵌入向量包括嵌入向量1、嵌入向量2、嵌入向量3和嵌入向量4,则嵌入向量输出模型最终输出的待挖掘用户的嵌入向量是嵌入向量1、嵌入向量2、嵌入向量3和嵌入向量4这4个嵌入向量的平均值。
S103,将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。
作为本发明一个实施例,将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签可以是:计算待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量的余弦相似度,将余弦相似度最大时职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签,其中,余弦相似度的计算公式为
Figure BDA0001557579870000081
其表达式各计算因子的含义如前所述。
需要说明的是,cos(θ)的取值范围在[-1,1],当cos(θ)的取值为-1时,表示向量A和向量B指向的方向截然相反,向量A和向量B代表的对象不仅不相似,而且是完全对立的,当cos(θ)的取值为0时,表示向量A和向量B之间是独立的,向量A和向量B代表的对象不相似,当cos(θ)的取值为1时,表示向量A和向量B指向的方向完全相同,向量A和向量B代表的对象不仅相似,而且是相似度最高的一组对象。
以前述实施例为例,当将待挖掘用户A的特征词输入已训练嵌入向量输出模型时,输出的待挖掘用户A的嵌入向量为A,输出的职业标签嵌入向量包括B、B1、B2、…、Bi、…、Bk等,采用余弦相似度的计算公式分别计算(A,B)、(A,B1)、(A,B2)…、(A,Bi)、…、(A,Bk)的待挖掘用户的嵌入向量A与每一职业标签嵌入向量Bi的余弦相似度,若(A,B)的余弦相似度最大,则职业标签嵌入向量B对应的职业标签作为待挖掘用户的职业标签。
以下以预测某个微信等社交类应用的用户的职业是否为房产中介为例说明本发明的技术方案。
假设根据用户A使用微信的各种数据,确定用户A的身份是“售楼小姐”。若以现有的挖掘用户的职业信息的方法,采用“售楼小姐”去匹配各种职业,很可能无法匹配到“房产中介”这一职业上,因为与房产中介这一职业相关的数据都是与“房产中介”这一职业标签而非与“二手房中间商”这一并不存在或者表述不标准的职业标签相关。而采用本发明提供的技术方案,首先提取用户C的特征值并将这些特征值转化为“售楼小姐-C”这一表示用户C的特征词,然后,用“售楼小姐-C”和用户C的职业标签“房产中介”作为样本数据,对嵌入向量输出模型不断地训练,直至训练出最佳嵌入向量输出模型,在该最佳嵌入向量输出模型中,“售楼小姐-C”和用户C的职业标签“房产中介”分别对应的嵌入向量假设为[0.198,0.834,0.991,0.778]和[0.991,0.786,0.181,0.653],即“售楼小姐-C”的嵌入向量=[0.198,0.834,0.991,0.778],“房产中介”对应的嵌入向量即职业标签嵌入向量=[0.991,0.786,0.181,0.653],且两者计算出来的余弦相似度值最大,即售楼小姐-C”的嵌入向量[0.198,0.834,0.991,0.778]与“房产中介”对应的嵌入向量即职业标签嵌入向量[0.991,0.786,0.181,0.653]最匹配。这个最佳嵌入向量输出模型在输入用户A的特征词,例如“售楼小姐-A”后,其输出用户A的嵌入向量为[0.199,0.844,0.971,0.780],职业标签嵌入向量包括A、B1、B2、B3、B4和B5,其中,A=[0.992,0.788,0.179,0.655]、B1=[0.652,0.596,0.834,0.699]、B2=[0.101,0.569,0.792,0.998]、B3=[0.912,0.567,0.269,0.899]、B4=[0.913,0.697,0.236,0.798]、B5=[0.991,0.787,0.180,0.666],A、B1、B2、B3、B4和B5对应的职业标签分别为“房产中介”、“游戏主播”、“律师”、“工程师”、“长途货车司机”、“二手房中间商”。经计算,嵌入向量[0.199,0.844,0.971,0.780]与嵌入向量[0.992,0.788,0.179,0.655]或嵌入向量[0.991,0.787,0.180,0.666]最匹配,则确定用户A的职业是房产中介或二手房中间商。
从上述附图1示例的挖掘用户职业的方法可知,一方面,待挖掘用户和职业标签用隶属同一向量空间的嵌入向量表示而非自然语言表示,本质含义相同的词语其嵌入向量之间的距离最短甚至为零,这就使得待挖掘用户的嵌入向量与职业标签嵌入向量进行相似度计算成为可能,也使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,只需要极少数的向量加乘操作即可完成,无需大量计算资源,计算速度极快,适于在计算资源宝贵且要求计算速度快的应用。
图2是本发明实施例提供的挖掘用户职业的装置的示意图,主要包括特征转换模块201、嵌入向量获取模块202和匹配模块203,详细说明如下:
特征转换模块201,用于提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;
嵌入向量获取模块202,用于根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属同一向量空间;
匹配模块203,用于将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。
需要说明的是,本发明实施例提供的装置,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
附图2示例的嵌入向量获取模块202可以包括模型构建单元301和输入单元302,如附图3示例的挖掘用户职业的装置,其中:
模型构建单元301,用于使用样本用户的特征词和样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型;
输入单元302,用于将职业标签和待挖掘用户的特征词输入已训练嵌入向量输出模型,以输出所有职业标签嵌入向量和待挖掘用户的嵌入向量。
附图3示例的模型构建单元301可以包括初始化单元401和训练单元402,如附图4示例的挖掘用户职业的装置,其中:
初始化单元401,用于初始化样本用户的嵌入向量和职业标签嵌入向量;
训练单元402,用于以样本用户的特征词和样本用户的职业标签作为样本数据训练嵌入向量输出模型,直至损失函数取值最小时训练结束,训练结束时获得的嵌入向量输出模型作为已训练嵌入向量输出模型,其中,损失函数为衡量待挖掘用户的实际职业标签和根据已训练嵌入向量输出模型预测出待挖掘用户的职业标签之间差值的函数,损失函数为
Figure BDA0001557579870000111
a表示样本用户A的特征词,b表示样本用户A的职业标签,
Figure BDA0001557579870000112
表示除b之外的职业标签,sim(a,b)或
Figure BDA0001557579870000113
为余弦相似度计算公式。
附图2至4任一示例的匹配模块203可以包括计算单元501,如附图5-a至附图5-c示例的挖掘用户职业的装置。计算单元501用于计算待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量的余弦相似度,将余弦相似度最大时职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。
图6是本发明一实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62,例如挖掘用户职业的方法的程序。处理器60执行计算机程序62时实现上述挖掘用户职业的方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图2所示特征转换模块201、嵌入向量获取模块202和匹配模块203的功能。
示例性的,挖掘用户职业的方法的计算机程序62主要包括:提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属同一向量空间;将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器60执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序62在计算设备6中的执行过程。例如,计算机程序62可以被分割成特征转换模块201、嵌入向量获取模块202和匹配模块203的功能(虚拟装置中的模块),各模块具体功能如下:特征转换模块201,用于提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;嵌入向量获取模块202,用于根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属同一向量空间;匹配模块203,用于将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。
终端设备6可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器61可以是终端设备6的内部存储单元,例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备,例如终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,挖掘用户职业的方法的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤,即,提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属同一向量空间;将待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种挖掘用户职业的方法,其特征在于,所述方法包括:
提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;
根据所述样本用户的特征词和所述样本用户的职业标签,训练嵌入向量输出模型,构建已训练嵌入向量输出模型;
将职业标签和所述待挖掘用户的特征词输入所述已训练嵌入向量输出模型,以获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
2.如权利要求1所述的挖掘用户职业的方法,其特征在于,所述使用所述样本用户的特征词和所述样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型,包括:
初始化所述样本用户的嵌入向量和职业标签嵌入向量;
以所述样本用户的特征词和所述样本用户的职业标签作为样本数据训练所述嵌入向量输出模型,直至损失函数取值最小时训练结束,训练结束时获得的嵌入向量输出模型作为所述已训练嵌入向量输出模型,所述损失函数为衡量所述待挖掘用户的实际职业标签和根据所述已训练嵌入向量输出模型预测出待挖掘用户的职业标签之间差值的函数。
3.如权利要求2所述的挖掘用户职业的方法,其特征在于,所述损失函数为
Figure FDA0002890973950000011
所述a表示样本用户A的特征词,所述b表示所述样本用户A的职业标签,所述
Figure FDA0002890973950000012
表示除所述b之外的职业标签,所述sim(a,b)或所述
Figure FDA0002890973950000013
为余弦相似度计算公式。
4.如权利要求1至3任意一项所述的挖掘用户职业的方法,其特征在于,所述将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签,包括:
计算所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量的余弦相似度,将所述余弦相似度最大时职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
5.一种挖掘用户职业的装置,其特征在于,所述装置包括:
特征转换模块,用于提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;
嵌入向量获取模块,用于根据所述样本用户的特征词和所述样本用户的职业标签,训练嵌入向量输出模型,构建已训练嵌入向量输出模型;将职业标签和所述待挖掘用户的特征词输入所述已训练嵌入向量输出模型,以获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;
匹配模块,用于将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
6.如权利要求5所述的挖掘用户职业的装置,其特征在于,所述模型构建单元包括:
初始化单元,用于初始化所述样本用户的嵌入向量和职业标签嵌入向量;
训练单元,用于以所述样本用户的特征词和所述样本用户的职业标签作为样本数据训练所述嵌入向量输出模型,直至损失函数取值最小时训练结束,训练结束时获得的嵌入向量输出模型作为所述已训练嵌入向量输出模型,所述损失函数为衡量所述待挖掘用户的实际职业标签和根据所述已训练嵌入向量输出模型预测出待挖掘用户的职业标签之间差值的函数。
7.如权利要求6所述的挖掘用户职业的装置,其特征在于,所述损失函数为
Figure FDA0002890973950000021
所述a表示样本用户A的特征词,所述b表示所述样本用户A的职业标签,所述
Figure FDA0002890973950000032
表示除所述b之外的职业标签,所述sim(a,b)或所述
Figure FDA0002890973950000031
为余弦相似度计算公式。
8.如权利要求5至7任意一项所述的挖掘用户职业的装置,其特征在于,所述匹配模块包括:
计算单元,用于计算所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量的余弦相似度,将所述余弦相似度最大时职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述方法的步骤。
CN201810068937.0A 2018-01-24 2018-01-24 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 Active CN110110213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810068937.0A CN110110213B (zh) 2018-01-24 2018-01-24 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810068937.0A CN110110213B (zh) 2018-01-24 2018-01-24 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备

Publications (2)

Publication Number Publication Date
CN110110213A CN110110213A (zh) 2019-08-09
CN110110213B true CN110110213B (zh) 2021-03-26

Family

ID=67483499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810068937.0A Active CN110110213B (zh) 2018-01-24 2018-01-24 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备

Country Status (1)

Country Link
CN (1) CN110110213B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689368B (zh) * 2019-08-22 2022-07-19 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测系统设计方法
CN110782128B (zh) * 2019-09-27 2024-03-29 北京淇瑀信息科技有限公司 一种用户职业标签生成方法、装置和电子设备
CN112348662B (zh) * 2020-10-21 2023-04-07 上海淇玥信息技术有限公司 基于用户职业预测的风险评估方法、装置和电子设备
CN113051406A (zh) * 2021-03-23 2021-06-29 龙马智芯(珠海横琴)科技有限公司 一种人物属性预测方法、装置、服务器及可读存储介质
CN113157889A (zh) * 2021-04-21 2021-07-23 韶鼎人工智能科技有限公司 一种基于主题损失的视觉问答模型构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
CN105183803A (zh) * 2015-08-25 2015-12-23 天津大学 一种社交网络平台中的个性化搜索方法及其搜索装置
CN105608477A (zh) * 2016-03-01 2016-05-25 吕云 一种人物画像与职位匹配的方法及系统
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN106776653A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据挖掘方法及装置
CN107516237A (zh) * 2017-07-22 2017-12-26 长沙兔子代跑网络科技有限公司 一种根据用户画像挖掘代跑客户的方法及装置
CN107526780A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种根据用户画像智能挖掘代跑客户的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN105183803A (zh) * 2015-08-25 2015-12-23 天津大学 一种社交网络平台中的个性化搜索方法及其搜索装置
CN106776653A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据挖掘方法及装置
CN105608477A (zh) * 2016-03-01 2016-05-25 吕云 一种人物画像与职位匹配的方法及系统
CN107516237A (zh) * 2017-07-22 2017-12-26 长沙兔子代跑网络科技有限公司 一种根据用户画像挖掘代跑客户的方法及装置
CN107526780A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种根据用户画像智能挖掘代跑客户的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The establishment of humen-computer interaction based on Word2Vec;Bo-Sheng Lin;《IEEE Xplore》;20170824;第1698-1703 *
基于知识整合的词汇语义相似度计算方法研究;蔡圆媛;《中国博士学位论文全文数据库》;20170215;第I138-236页 *

Also Published As

Publication number Publication date
CN110110213A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
WO2021212682A1 (zh) 知识抽取方法、装置、电子设备及存储介质
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN112380870A (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN113051480A (zh) 资源推送方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN114416976A (zh) 文本标注方法、装置及电子设备
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN112801425A (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN113947087B (zh) 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN114240568A (zh) 关联产品的推荐方法和推荐装置
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN112651782A (zh) 基于缩放点积注意力的行为预测方法、装置、设备及介质
CN113420542B (zh) 对话生成方法、装置、电子设备及存储介质
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant