CN107862558A - 自助式用户群扩展方法 - Google Patents
自助式用户群扩展方法 Download PDFInfo
- Publication number
- CN107862558A CN107862558A CN201711303855.1A CN201711303855A CN107862558A CN 107862558 A CN107862558 A CN 107862558A CN 201711303855 A CN201711303855 A CN 201711303855A CN 107862558 A CN107862558 A CN 107862558A
- Authority
- CN
- China
- Prior art keywords
- label
- user
- tag
- portrait
- passenger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000003542 behavioural effect Effects 0.000 claims abstract description 6
- 238000013500 data storage Methods 0.000 claims abstract description 6
- 230000008676 import Effects 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008520 organization Effects 0.000 abstract description 2
- 238000001027 hydrothermal synthesis Methods 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0257—User requested
- G06Q30/0258—Registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种自助式用户扩展方法,应用于航空业中以实现在线广告投放的定制化。其包括以下步骤:S1、数据的存储优化;S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;S3、勾选画像标签;S4、采用改进的半监督学习算法或相似度距离测度算法量化其他旅客与种子人群的相似度。其中,步骤S1中,对数据的存储结构进行了优化,可满足业务人员对数据的不断扩充;步骤S3中实现了由业务人员主导的标签勾选;步骤S4中采用改进的算法对旅客与种子人群的相似度进行量化,降低了计算复杂度,提升了计算效率。
Description
技术领域
本发明涉及航空业的在线广告投放领域,具体涉及一种自助式用户群扩展方法。
背景技术
用户群扩展(Look-alike audience extension)是能使在线广告投放实现定制化的有效方法。在线广告投放中使用用户群扩展系统能帮助投放者找寻已存在响应用户的相似者,来实现相应商业目标。使用用户群扩展系统,任何广告投放者能够在无需了解目标群体特征的情况下,通过输入一个已存在的响应用户名单(种子用户名单),来复制出一个定制化的高相似度用户名单。于航空业而言,在电子商务发达的互联网时代,用户群扩展系统除了广告和优惠活动的精准投放,还能实现更广义的“以人找人”需求,如:以高端人群名单寻找潜在的高价值旅客,以流失客户名单找寻潜在的高流失风险群体,以旅游捆绑产品的购买人群名单寻找潜在的高购买倾向群体等。
传统的用户群扩展算法往往由互联网数据挖掘分析专家,基于深厚的行业知识和对数据的理解,对特定的种子用户群进行人工特征工程,构建定制化机器学习算法。在这过程中,对于任意一个案例,从对种子人群业务分析,到提炼特征变量,再到算法调试,需要分花费析师大量的时间和精力,不同业务背景的案例还需要和不同的业务组进行深入的交流以保证算法模型中使用的变量特征是高质量的、与业务逻辑一致的。在电商巨头海量广告投放的业务背景下,就需要成百上千的定制化模型,其间产生的人力和时间成本无疑是巨大的。
发明内容
本发明的目的在于提供一种可由业务员导向、并提升扩展效率的自助式用户群扩展方法。
为实现上述目的,本发明采用以下技术方案:
自助式用户群扩展方法,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用半监督学习算法量化其他旅客与种子人群的相似度。
进一步地,所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
进一步地,步骤S4具体包括以下步骤:
S41、采用1-DNF算法获得负样本集合;
S42、将获得的负样本集合结合种子人群的正样本集合,使用GBDT算法构建分类模型,使用构建的分类模型对其他旅客进行打分,量化其他旅客与种子人群的相似度。
进一步地,步骤S41具体包括:
S411、设全旅客横表的字段为User_id,X1,…,XN,IS_P,其中X1到XN为N个0-1标签特征,IS_P为是否正例的0-1标记,则生成如下2N个新列:Pi=Xi*IS_P,Ui=Xi*(1-IS_P),i=1to N;
S412、对P1,…,PN和U1,…,UN字段全表GroupBy求和得到一个维度为1*2N的横表,结构为SUM_P1,…,SUM_PN,SUM_U1,…,SUM_UN;
S413、使用宽转长操作将上表转成N*3维的竖表,字段为FEATURE_INDEX,SUM_P,SUM_U,其中FEATURE_INDEX值为标签定义字符“X1”,…,“XN”;
S414、对竖表通过条件SUM_P/|P|>SUM_U/|U|进行过滤,留下的FEATURE_INDEX用来表征PT特征集;
S415、将FEATURE_INDEX作长转宽操作变为维度为1*n的横表,列名为Xa1,Xa2,…,Xan,表的值为常数0;其中,n为PT特征的个数,a1到an为1到N的一个子集,n<=N;
S416、将全旅客横表和S45中的横表用(Xa1,Xa2,…,Xan)组合键作内关联,关联所得的User_id即为负样本集合。
本发明还提供又一种自助式用户群扩展方法,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用相似度距离测度算法量化其他旅客与种子人群的相似度。
进一步地,所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
进一步地,所述相似度距离测度算法中,旅客i和种子人群集合S之间的相似度为:
式中,F是由种子人群集合S组成的0-1特征宽表矩阵,其维度为P*K,P为种子人群集合S中的人群数目,K为特征的个数;是旅客i的0-1特征列向量,其维度为K*1;Y是标签定义的数目。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、业务人员能自助式筛取旅客标签作为输入到算法端的变量。如果画像系统中尚未存在一些业务相关的重要特征变量,业务人员能拟定特定业务逻辑交由ETL专家实现数据逻辑将变量入库。该模式业务导向性极强,大大节省了传统分析师的时间成本(特征工程一般占据完整商业分析数据挖掘任务构建周期的70%-80%);
2、基于业务员勾选的业务相关画像标签,自动化构建分析视图,利用改良版的算法(包括1-DNF算法和Jaccard测度)快捷高效地实现对其他会员与种子人群间的相似度量化。
附图说明
图1为本发明流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1所示,自助式用户群扩展方法,主要包括4个步骤。
S1、数据的存储优化:为满足可由业务人员不断扩充的需求,在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
请参阅下表所示,User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符;Tag_cd为标签代码,用于表示画像标签;其位数为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
使用该存储结构,大多数旅客User_id的画像标签由于业务累积,在该表中能形成成百上千行数据。
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统。一般而言为一列10万到100万的旅客会员号User_id。
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp(User_tag_value_tmp结构与User_tag_value相同,只包含勾选的画像标签所代表的Tag_cd))。由于User_tag_value_tmp为竖表结构,为了后续机器学习算法使用,须将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征。
S4、采用半监督学习算法量化其他旅客与种子人群的相似度。
S41、采用1-DNF算法获得负样本集合;
可靠负样本的获取是该算法的关键。本发明通过对传统的1-DNF伪代码进行深入挖掘,提炼出一种基于表格数据转换的Hive QL算法,充分地利用了分布式离线分析工具的计算能力。1-DNF的基本思想是:对于每个标签,如果其在正例集合P(Positive,种子人群)中的出现比重大于在未标注集合U(Unknown,其余会员)中出现的比重,则该标签为正标签(Positive Tag,PT),所有满足该条件的标签组成一个PT集合。对U中的每个样本,如果其完全不包含PT集合中的任意一个特征,则该样本应加入可靠负样本集合RN(ReliableNegative)。
传统的1-DNF伪代码算法如下:
a)PF置空,RN=U;
b)设U∪P的特征集为:{x1,x2,…,xn};
for i=1to n:
if(freq(xi,P)/|P|>freq(xi,U)/|U|):
PT=PT∪{xi}
C)for each d∈U:
Ifョxj,freq(xj,d)>0and xj∈PT:
RN=RN-{d}
本发明提出的基于表格数据转换的1-DNF算法具体包括:
S411、设全旅客横表的字段为User_id,X1,…,XN,IS_P,其中X1到XN为N个0-1标签特征,IS_P为是否正例的0-1标记,则生成如下2N个新列:Pi=Xi*IS_P,Ui=Xi*(1-IS_P),i=1to N;
下述步骤均以如下3个种子用户(|P|=3)、2个未标记用户(|U|=2)、5个用户标签(两个变量“性别”及“是否会员”)为简单实例进行阐释。
S412、对P1,…,PN和U1,…,UN字段全表GroupBy求和得到一个维度为1*2N的横表,结构为SUM_P1,…,SUM_PN,SUM_U1,…,SUM_UN;
SUM_P1 | SUM_P2 | SUM_P3 | SUM_P4 | SUM_P5 | SUM_U1 | SUM_U2 | SUM_U3 | SUM_U4 | SUM_U5 |
3 | 0 | 0 | 2 | 1 | 0 | 1 | 1 | 1 | 1 |
S413、使用宽转长操作将上表转成N*3维的竖表,字段为FEATURE_INDEX,SUM_P,SUM_U,其中FEATURE_INDEX值为标签定义字符“X1”,…,“XN”;
FEATURE_INDEX | SUM_P | SUM_U |
X1 | 3 | 0 |
X2 | 0 | 1 |
X3 | 0 | 1 |
X4 | 2 | 1 |
X5 | 1 | 1 |
S414、对竖表通过条件SUM_P/|P|>SUM_U/|U|进行过滤,留下的FEATURE_INDEX用来表征PT特征集;
FEATURE_INDEX | SUM_P | SUM_U |
X1 | 3 | 0 |
X4 | 2 | 1 |
S415、将FEATURE_INDEX作长转宽操作变为维度为1*n的横表,列名为Xa1,Xa2,…,Xan,表的值为常数0;其中,n为PT特征的个数,a1到an为1到N的一个子集,n<=N;
X1 | X4 |
0 | 0 |
这里设为0的意义是考虑到原始标签宽表里0表示的某个User_id不具有某个标签特征,目的是以便下一步能够使用一步内关联,关联出不具有任何一个PT特征的旅客;
S416、将全旅客横表和S45中的横表用(Xa1,Xa2,…,Xan)组合键作内关联,关联所得的User_id即为负样本集合。
该例中只有用户E满足X1和X4同时为0,故可靠负样本集合为{E}。
User_id | X1 | X2 | X3 | X4 | X5 | IS_P |
E | 0 | 0 | 1 | 0 | 1 | 0 |
S42、将获得的负样本集合结合种子人群的正样本集合P形成机器学习的分析视图作为输入,使用GBDT算法构建分类模型,使用5-Fold交叉验证来自动获得最优模型超参数。使用最优的分类模型对其他旅客进行打分,量化其他旅客与种子人群的相似度。
本发明还提供又一种自助式用户群扩展方法,其与实施1一样包括4个步骤,不同之处在于步骤S4中,采用了相似度距离测度算法量化其他旅客与种子人群的相似度。
S4、采用相似度距离测度算法量化其他旅客与种子人群的相似度。
在传统的相似度距离测度算法(Jaccard测度算法)中,旅客i与旅客j间的一对一相似度(User to User Similarity,下文简称U2U相似度)采用Jaccard相似度来定义(K个特征):
则,旅客i和一个旅客群体S之间的相似度定义为:
式中,fi是一个K维向量,fig是一个数值,g的取值范围为1到K,代表fi的K个维度。
由此,对于任意一个非种子旅客i,均能够算出他与种子人群集合S的相似度,对相应计算复杂度为2*K*P^2*U。
如果对多重特征对(fig,fjg)均进行min和max的判断,对于千万级的数据,运算量将会极大。为了能利用spark矩阵向量运算的功能,在0-1特征的情况下,可对上述相似度公式进行转换后可得到如下形式:
由于其中Y是标签定义的数目(根据标签画像系统中标签的定义特性,每一个旅客不可能同时是“男”、“女”或“性别未知”,故所有标签0-1特征的求和为标签定义的数目),则上式可以进一步简化为
其中fi*fj是的向量乘法表示。
由于在[0,Y]区间内是单调递增函数,则有:
其中F是由种子人群集合S(假设人群数目为P)组成的0-1特征横表矩阵(维度P*K),是常旅客i的0-1特征列向量(维度K*1),矩阵运算的结果是一个P*1的列向量,表示旅客i与P位种子人群旅客间的相似度。
因此,所述相似度距离测度算法中,旅客i和种子人群集合S之间的相似度为:
如此,全网旅客的计算复杂度为K*P^2*U,与传统的相似度距离测度算法相比,减少了一半时间。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.自助式用户群扩展方法,其特征在于,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用半监督学习算法量化其他旅客与种子人群的相似度。
2.如权利要求1所述的自助式用户群扩展方法,其特征在于:所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
3.如权利要求1所述的自助式用户群扩展方法,其特征在于:步骤S4具体包括以下步骤:
S41、采用1-DNF算法获得负样本集合;
S42、将获得的负样本集合结合种子人群的正样本集合,使用GBDT算法构建分类模型,使用构建的分类模型对其他旅客进行打分,量化其他旅客与种子人群的相似度。
4.如权利要求3所述的自助式用户群扩展方法,其特征在于,步骤S41具体包括:
S411、设全旅客横表的字段为User_id,X1,…,XN,IS_P,其中X1到XN为N个0-1标签特征,IS_P为是否正例的0-1标记,则生成如下2N个新列:Pi=Xi*IS_P,Ui=Xi*(1-IS_P),i=1to N;
S412、对P1,…,PN和U1,…,UN字段全表GroupBy求和得到一个维度为1*2N的横表,结构为SUM_P1,…,SUM_PN,SUM_U1,…,SUM_UN;
S413、使用宽转长操作将上表转成N*3维的竖表,字段为FEATURE_INDEX,SUM_P,SUM_U,其中FEATURE_INDEX值为标签定义字符“X1”,…,“XN”;
S414、对竖表通过条件SUM_P/|P|>SUM_U/|U|进行过滤,留下的FEATURE_INDEX用来表征PT特征集;
S415、将FEATURE_INDEX作长转宽操作变为维度为1*n的横表,列名为Xa1,Xa2,…,Xan,表的值为常数0;其中,n为PT特征的个数,a1到an为1到N的一个子集,n<=N;
S416、将全旅客横表和S45中的横表用(Xa1,Xa2,…,Xan)组合键作内关联,关联所得的User_id即为负样本集合。
5.自助式用户群扩展方法,其特征在于,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用相似度距离测度算法量化其他旅客与种子人群的相似度。
6.如权利要求5所述的自助式用户群扩展方法,其特征在于:所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
7.如权利要求5所述的自助式用户群扩展方法,其特征在于:所述相似度距离测度算法中,旅客i和种子人群集合S之间的相似度为:
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>S</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>maxFf</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
</mrow>
<mrow>
<mn>2</mn>
<mi>Y</mi>
<mo>-</mo>
<msubsup>
<mi>maxFf</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
式中,F是由种子人群集合S组成的0-1特征宽表矩阵,其维度为P*K,P为种子人群集合S中的人群数目,K为特征的个数;是旅客i的0-1特征列向量,其维度为K*1;Y是标签定义的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711303855.1A CN107862558B (zh) | 2017-12-11 | 2017-12-11 | 一种自助式用户群扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711303855.1A CN107862558B (zh) | 2017-12-11 | 2017-12-11 | 一种自助式用户群扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862558A true CN107862558A (zh) | 2018-03-30 |
CN107862558B CN107862558B (zh) | 2021-11-26 |
Family
ID=61705332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711303855.1A Active CN107862558B (zh) | 2017-12-11 | 2017-12-11 | 一种自助式用户群扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862558B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN109767267A (zh) * | 2018-12-29 | 2019-05-17 | 微梦创科网络科技(中国)有限公司 | 一种用于广告投放的目标用户推荐方法及装置 |
CN110135916A (zh) * | 2019-05-23 | 2019-08-16 | 北京优网助帮信息技术有限公司 | 一种相似人群识别方法及系统 |
CN110335070A (zh) * | 2019-06-21 | 2019-10-15 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN110442761A (zh) * | 2019-06-21 | 2019-11-12 | 深圳中琛源科技股份有限公司 | 一种用户画像构建方法、电子设备及存储介质 |
CN111899049A (zh) * | 2020-07-23 | 2020-11-06 | 广州视源电子科技股份有限公司 | 广告投放方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332466A1 (en) * | 2012-06-08 | 2013-12-12 | International Business Machines Corporation | Linking Data Elements Based on Similarity Data Values and Semantic Annotations |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN106257503A (zh) * | 2016-07-26 | 2016-12-28 | 郑州郑大智能科技股份有限公司 | 一种互联网用电体相似用户识别方法 |
US20170293695A1 (en) * | 2016-04-12 | 2017-10-12 | Ebay Inc. | Optimizing similar item recommendations in a semi-structured environment |
-
2017
- 2017-12-11 CN CN201711303855.1A patent/CN107862558B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332466A1 (en) * | 2012-06-08 | 2013-12-12 | International Business Machines Corporation | Linking Data Elements Based on Similarity Data Values and Semantic Annotations |
US20170293695A1 (en) * | 2016-04-12 | 2017-10-12 | Ebay Inc. | Optimizing similar item recommendations in a semi-structured environment |
CN106126582A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 推荐方法及装置 |
CN106257503A (zh) * | 2016-07-26 | 2016-12-28 | 郑州郑大智能科技股份有限公司 | 一种互联网用电体相似用户识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN108536657B (zh) * | 2018-04-10 | 2021-09-21 | 百融云创科技股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN109767267A (zh) * | 2018-12-29 | 2019-05-17 | 微梦创科网络科技(中国)有限公司 | 一种用于广告投放的目标用户推荐方法及装置 |
CN109767267B (zh) * | 2018-12-29 | 2020-12-01 | 微梦创科网络科技(中国)有限公司 | 一种用于广告投放的目标用户推荐方法及装置 |
CN110135916A (zh) * | 2019-05-23 | 2019-08-16 | 北京优网助帮信息技术有限公司 | 一种相似人群识别方法及系统 |
CN110335070A (zh) * | 2019-06-21 | 2019-10-15 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN110442761A (zh) * | 2019-06-21 | 2019-11-12 | 深圳中琛源科技股份有限公司 | 一种用户画像构建方法、电子设备及存储介质 |
CN110335070B (zh) * | 2019-06-21 | 2024-01-26 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN111899049A (zh) * | 2020-07-23 | 2020-11-06 | 广州视源电子科技股份有限公司 | 广告投放方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107862558B (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862558A (zh) | 自助式用户群扩展方法 | |
Ji et al. | An improved k-prototypes clustering algorithm for mixed numeric and categorical data | |
Gong et al. | Hierarchical graph transformer-based deep learning model for large-scale multi-label text classification | |
Fu et al. | A product ranking method combining the features–opinion pairs mining and interval-valued Pythagorean fuzzy sets | |
CN109214562A (zh) | 一种基于rnn的电网科研热点预测与推送方法 | |
CN112559723B (zh) | 一种基于深度学习的faq检索式问答构建方法及系统 | |
CN110347791B (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
CN106844665A (zh) | 一种基于引用关系分布式表达的论文推荐方法 | |
Ren et al. | An ABGE-aided manufacturing knowledge graph construction approach for heterogeneous IIoT data integration | |
CN109388805A (zh) | 一种基于实体抽取的工商变更分析方法 | |
Khamparia et al. | A novel method of case representation and retrieval in CBR for e-learning | |
Ozcan et al. | Human resources mining for examination of R&D progress and requirements | |
CN110489661A (zh) | 一种基于生成对抗网络和迁移学习的社交关系预测方法 | |
Kanwatchara et al. | Rational LAMOL: A rationale-based lifelong learning framework | |
Liao et al. | Image-text interaction graph neural network for image-text sentiment analysis | |
Reddy et al. | Analyzing student reviews on teacher performance using long short-term memory | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
Garg et al. | Temporal restricted boltzmann machines for dependency parsing | |
Zhao et al. | Hybrid matrix factorization for recommender systems in social networks | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
Liu et al. | Multimodal learning based approaches for link prediction in social networks | |
Ayyappan et al. | A Noval approach of ensemble models by using EDM | |
US20210181931A1 (en) | Steering deep sequence model with prototypes | |
Pal et al. | Challenges in Data Science: A Comprehensive Study on Application and Future Trends | |
Lu et al. | A military named entity recognition method combined with dictionary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231222 Address after: No. 68 Qixin Road, Baiyun District, Guangzhou City, Guangdong Province, 510000 Patentee after: CHINA SOUTHERN AIRLINES CO.,LTD. Patentee after: Guangdong Southern Airlines Electronic Commerce Co.,Ltd. Address before: 510000 Room 301, 3rd floor, phase I office building, Guanhao science and Technology Park, 12 Yuyan Road, Huangpu District, Guangzhou City, Guangdong Province Patentee before: CHINA SOUTHERN AIRLINES CO.,LTD. |