CN109376315B - 一种基于机器学习的民航旅客标签分析方法及处理终端 - Google Patents

一种基于机器学习的民航旅客标签分析方法及处理终端 Download PDF

Info

Publication number
CN109376315B
CN109376315B CN201811117393.9A CN201811117393A CN109376315B CN 109376315 B CN109376315 B CN 109376315B CN 201811117393 A CN201811117393 A CN 201811117393A CN 109376315 B CN109376315 B CN 109376315B
Authority
CN
China
Prior art keywords
gru
civil aviation
user
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811117393.9A
Other languages
English (en)
Other versions
CN109376315A (zh
Inventor
陈明桩
曾帆
吴双燕
高陈程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Civil Aviation Cares Co ltd
Original Assignee
Hainan Civil Aviation Cares Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Civil Aviation Cares Co ltd filed Critical Hainan Civil Aviation Cares Co ltd
Priority to CN201811117393.9A priority Critical patent/CN109376315B/zh
Publication of CN109376315A publication Critical patent/CN109376315A/zh
Application granted granted Critical
Publication of CN109376315B publication Critical patent/CN109376315B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于机器学习的民航旅客标签分析方法,包括如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征;步骤3:GRU训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为;步骤5:标签建立,经过步骤3训练和步骤4优化后,第一GRU、第二GRU和第三GRU分别连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签。本发明能够精准识别出用户是否为民航旅客,且计算效率高。

Description

一种基于机器学习的民航旅客标签分析方法及处理终端
技术领域
本发明涉及民航旅客标签处理技术领域,具体是一种基于机器学习的民航旅客标签分析方法及处理终端。
背景技术
随着网络技术,特别是移动互联网的发展,互联网信息呈爆炸式增长,而信息筛选手段、信息处理速度却没能相应匹配,这也造成航空企业无法对民航旅客进行有效识别,不合时宜不合偏好的推送,往往对用户带来骚扰,进而引发用户投诉。因此,如何通过各类互联网访问信息,精准构建民航旅客标签,识别出真正的民航旅客用户一直都是各大航司重点研究方向。现有民航旅客标签构建方式,主要基于人肉标签+浅层学习方法,大范围的人类知识介入以及对数量大、维度高以及稀疏性的互联网数据特征之间的潜在联系没能进一步挖掘,造成标签构建效率低下且准确率无法支持后续的精准营销,导致推送的消息引起用户的反感,进而造成投诉。这就需要有一种能够准确识别出是否为民航旅客的方法。
发明内容
针对现有技术的不足,本发明的目的之一提供一种基于机器学习的民航旅客标签分析方法,其能够解决准确识别出是否为民航旅客的问题;
本发明的目的之二提供一种处理终端,其能够解决准确识别出是否为民航旅客的问题。
实现本发明的目的之一的技术方案为:一种基于机器学习的民航旅客标签分析方法,包括如下步骤:
步骤1:获取原始数据;
步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;
步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr
步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:
Figure GDA0002620079180000021
根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;
步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)、g(zi)和g(zi),g(zi)表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)、g(zi)和g(zi)有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。
进一步地,所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。
进一步地,所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯信息,敏感属性包括人际关系,非敏感属性包括教育、资本收益、资本损失和每周工作时间;对显示标识符进行删除或者失真处理,对准标识符脱敏处理,对敏感属性保留,而对非敏感数据则直接输出。
进一步地,所述第一GRU的输入的向量化样本特征为按天统计的点击数,第二GRU的输入的向量化样本特征为按月统计的购买数,第三GRU的输入的向量化样本特征为按年统计的购票数。
进一步地,所述训练条件用交叉熵损失函数来约束,交叉熵损失函数的计算式为公式①:
Figure GDA0002620079180000041
其中,y表示实际标注值,o表示预测输出值,直至L(y,o)<0.005,则停止训练。
进一步地,所述GRU包括结构相同的第一GRU、第二GRU和第三GRU,第一GRU、第二GRU和第三GRU分别连接Softmax层。
进一步地,所述Softmax层的计算式为公式②:
Figure GDA0002620079180000042
其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。
实现本发明的目的之二的技术方案为:一种处理终端,其包括,
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如下步骤:
步骤1:获取原始数据;
步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;
步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr
步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:
Figure GDA0002620079180000051
根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;
步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)、g(zi)和g(zi),g(zi)表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)、g(zi)和g(zi)有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。
进一步地,所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。
进一步地,所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息,敏感属性包括人际关系,非敏感属性包括教育、资本收益、资本损失和每周工作时间;对显示标识符进行删除或者失真处理,对准标识符脱敏处理,对敏感属性保留,而对非敏感数据则直接输出。
进一步地,所述第一GRU的输入的向量化样本特征为按天统计的点击数,第二GRU的输入的向量化样本特征为按月统计的购买数,第三GRU的输入的向量化样本特征为按年统计的购票数。
进一步地,所述训练条件用交叉熵损失函数来约束,交叉熵损失函数的计算式为公式①:
Figure GDA0002620079180000061
其中,y表示实际标注值,o表示预测输出值,直至L(y,o)<0.005,则停止训练。
进一步地,所述GRU包括结构相同的第一GRU、第二GRU和第三GRU,第一GRU、第二GRU和第三GRU分别连接Softmax层。
进一步地,所述Softmax层的计算式为公式②:
Figure GDA0002620079180000071
其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。
本发明的有益效果为:本发明能够精准识别出用户是否为“民航旅客”,且计算效率高,利用深度神经网络构建民航旅客标签模型,从深度学习的角度挖掘出更多维度特征之间隐藏的联系,从而提高民航旅客标签预测效果,达到精准推送的目的,并能提高用户对个性化服务的满意度。
附图说明
图1本发明较佳实施例的流程图;
图2为本发明的GRU结构示意图;
图3本发明一种处理终端的结构示意图;
图中,
Figure GDA0002620079180000072
表示矩阵的点乘运算,[.,.]表示做矩阵运算,
Figure GDA0002620079180000073
表示GRU收敛到终止条件时的最终输出。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图1和图2所示,一种基于机器学习的民航旅客标签分析方法,包括如下步骤:
步骤1:获取原始数据,原始数据主要采集用户互联网行为数据,包括采集各电商网站浏览行为数据、各电商购买行为数据、微博浏览行为数据、旅游社交网站浏览行为数据、视频网站观看行为数据和航空公司购票数据等互联网行为数据;
步骤2:对原始数据进行预处理,预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析等处理过程,从而获得向量化样本特征,向量化样本特征便于后续数据处理的矩阵运算;
其中,数据脱敏),数据脱敏使用基于k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA等信息,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息,敏感属性包括人际关系,非敏感属性包括教育、资本收益、资本损失和每周工作时间等;本发明对显示标识符进行删除或者失真处理,对准标识符,对敏感属性保留,而对非敏感数据则直接输出,以此实现数据的脱敏,在满足数据可用性的同时实现对隐私保护;
去重),将每条数据计算哈希(HASH)值,简单判断HASH值是否存在,如果HASA值存在,则表示该数据为重复数据,删除重复数据;
缺失值处理),由于数据来源于不同网站,其数据来源具有多样性,这导致原始数据中难免会存在缺失值,对于存在超过5个缺失值的数据,进行删除,否则将缺失值统一取值为0进行替代;
ID-Mapping),一个用户会在不同类别的网站进行浏览和购票等行为,导致数据来源具有多样性,不同的数据源属于不同的机构,不同的机构采用不同的身份ID对用户进行标识,需要通过ID-Mapping技术将一个人在不同的网站产生的数据关联起来,即要让数据找到对的人,本实施例中,采用Map-Reduce算法来关联ID信息;
统计分析),将数据以通过ID-Mapping处理后得到的唯一用户ID为主键,做数据合并处理,对点击相关数据按天进行合并,对购买相关数据按月进行合并,对购票相关数据按年进行合并,分别得到如表1至表3的数据:
品类1 品类2 品类3 品类4 品类5
用户1 304 388 23 542 533
用户2 419 0 535 0 243
表1用户在某网站按天统计点击数
品类1 品类2 品类3 品类4 品类5
用户1 0 12 43 11 53
用户2 41 55 0 23 24
表2用户在某网站按月统计购买数
机票
用户1 2
用户2 1
表3用户在某网站按年统计购票数
向量化),由于数据来自多个不同网站,需要将不同网站的数据按唯一用户ID进行合并,不同网站的所有品类都放到同一行里,如果用户在这个品类里没有行为数据,那么就填0,也就是向量化处理,从而得到三个分别按天、按月和按年进行统计的高维、稀疏的矩阵,即得到按天统计的行为数据、按月统计的行为数据和按年统计的行为数据,以上三个数据均为向量化样本特征,此三个向量化样本特征将作为本实施例的输入,输入的数据可以用矩阵或向量的形式来表示,输入的数据样式如表4所示:
品类1.1 品类1.3
用户1 0...0 38 0...0 54 0...0
用户2 0...0 23 0...0 43 0...0
表4输入数据样式
步骤3:GRU训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr,本实施例,使用三重时序的GRU结构,包括第一GRU、第二GRU和第三GRU,即将按天统计的向量化样本特征输入至第一GRU,按月统计的向量化特征输入至第二GRU,按年统计的向量化特征输入至第三GRU,,由于本实施例中,输入的数据是包括按天、按月和按年进行统计的三个矩阵,因此通过GRU训练,分别得到更新门的权重矩阵:Wz天、Wz月和Wz年,以及重置门的权重矩阵:Wr天、Wr月和Wr年,Wz天表示对应第一GRU的更新门的权重矩阵,Wz月表示对应第二GRU的更新门的权重矩阵,Wz年表示对应第三GRU的更新门的权重矩阵,Wr天表示对应第一GRU的重置门的权重矩阵,Wr月表示对应第二GRU的重置门的权重矩阵,Wr年表示对应第三GRU的重置门的权重矩阵;
GRU的前向计算公式为:
Zt=σ(WZ·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure GDA0002620079180000101
Figure GDA0002620079180000111
其中,
Figure GDA0002620079180000115
表示矩阵的点乘运算,σ表示Sigmoid激活函数,Zt表示更新门,rt表示重置门,xt表示隐藏层的输入,即表示向量化样本特征,ht表示t时刻的隐藏层的输出,ht-1表示t-1时刻的隐藏层的输出,W表示收敛到终止条件时所有权重矩阵;
初始化时,Wz、Wr和h0均设为全0矩阵,xt包括xt天、xt月和xt年,分别表示按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征,具体的数据样式如下:
Figure GDA0002620079180000112
Figure GDA0002620079180000113
Figure GDA0002620079180000114
选取的时间跨度是最近30天点击行为,最近12个月购买行为,最近3年购票行为,即xt天的time_steps=30,xt月的time_steps=12,xt年年的time_steps=3;
在对GRU训练之前,从购票行为的历史数据中对n_samples取值,n_samples表示用户标签数据,本实施例中选取中国民航信息网络股份有限公司(中航信)的购票数据,如果中国民航信息网络股份有限公司提供的购票数据显示某用户有购票,则n_samples=1,否则,n_samples=0,该n_samples值也是根据历史数据得出的推荐前的值,即有公式(1):
Figure GDA0002620079180000121
并且将n_samples的值固定设置在xt的第一行;将xt天、xt月和xt年三个输入数据分别输入至第一GRU、第二GRU和第三GRU,经过前向公式计算出Zt、rt和ht-1,并以ht-1作为下次计算的输入,如此循环,直至满足停止训练条件后,停止训练。
所述满足停止训练条件是通过损失函数来确定,具体过程如下:
本实施例中,选用交叉熵损失函数(Cross-Entropy Loss)作为停止训练条件的判断依据,交叉熵损失函数的计算式为公式(2):
Figure GDA0002620079180000122
其中,y表示实际标注值,o表示预测输出值,在本实施例中,y取xt中的n_samples值,即y=n_samples,取值完后转换成矩阵,比如n_samples=1,则y=[1,0,0,...,0],o取ht值,即o=ht,将y和o代入公式(2)进行运算,直至L(y,o)<0.005,则停止训练,停止训练所对应的三组更新门的权重矩阵Wz天、Wz月和Wz年,以及三组重置门的权重矩阵Wr天、Wr月和Wr年,就是GRU训练所需要的学习参数,也即作为本实施例中GRU的更新门的权重矩阵和重置门的权重矩阵。
步骤4:GRU优化,在步骤3中,对n_samples取值,已经根据历史数据对用户是否标签为“民航旅客”,在步骤3中完成权重矩阵的确定后,训练后的GRU会对用户进行推荐消息,需要再次根据用户接收推荐消息后的购买行为来调整n_samples的值,具体如下:
根据ID-Mapping技术对已标签的用户进行跟踪反馈,定期检索中航信的购票行为数据,获取用户是否曾发生过购票行为,若在1个月内发现其有购票行为,则说明标签准确,标记为正样本,否则标记为负样本,也即调整n_samples值,得到推荐后的n_samples值:
Figure GDA0002620079180000131
根据调整后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU,最终的GRU可以自主直接对新用户进行标签分析,自主决定是否对用户建立“民航旅客”的标签;
步骤5:标签建立,经过GRU训练后,得到了最终的GRU,即得到经过训练和优化后的第一GRU、第二GRU和第三GRU,然后,第一GRU、第二GRU和第三GRU分别连接Softmax层,即ht作为Softmax层的输入,根据Softmax层输出值来判断是否对用户建立“民航旅客”的标签,Softmax层的计算式为公式(3):
Figure GDA0002620079180000132
其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。
比如,ht天=[2 1 3 4]经过公式(3)计算后,得到对应的输出向量y=[0.09 0.030.24 0.64];
将ht天、ht月和ht年输入至Softmax层,经过公式(3)进行计算,输出对应的三个结果g(zi)、g(zi)和g(zi),当计算出的g(zi)、g(zi)和g(zi)有两个或两个以上的最大值出现在第一行,则判断此数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。
如图3所示,本发明还涉及一种实现以上方法的实体装置的处理终端100,其包括,
存储器101,用于存储程序指令;
处理器102,用于运行所述程序指令,以执行如下步骤:
步骤1:获取原始数据;
步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;
步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr
步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:
Figure GDA0002620079180000151
根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;
步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)、g(zi)和g(zi),g(zi)表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)、g(zi)和g(zi)有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。
进一步地,所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。
进一步地,所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息,敏感属性包括人际关系,非敏感属性包括教育、资本收益、资本损失和每周工作时间;对显示标识符进行删除或者失真处理,对准标识符脱敏处理,对敏感属性保留,而对非敏感数据则直接输出。
进一步地,所述第一GRU的输入的向量化样本特征为按天统计的点击数,第二GRU的输入的向量化样本特征为按月统计的购买数,第三GRU的输入的向量化样本特征为按年统计的购票数。
进一步地,所述训练条件用交叉熵损失函数来约束,交叉熵损失函数的计算式为公式①:
Figure GDA0002620079180000161
其中,y表示实际标注值,o表示预测输出值,直至L(y,o)<0.005,则停止训练。
进一步地,所述GRU包括结构相同的第一GRU、第二GRU和第三GRU,第一GRU、第二GRU和第三GRU分别连接Softmax层。
进一步地,所述Softmax层的计算式为公式②:
Figure GDA0002620079180000162
其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (8)

1.一种基于机器学习的民航旅客标签分析方法,其特征在于:包括如下步骤:
步骤1:获取原始数据;
步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;
步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr
其中,GRU的前向计算公式为:
Zt=σ(WZ·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0002595099210000011
Figure FDA0002595099210000012
其中,
Figure FDA0002595099210000013
表示矩阵的点乘运算,σ表示Sigmoid激活函数,Zt表示更新门,rt表示重置门,xt表示向量化样本特征,ht表示t时刻的隐藏层的输出,ht-1表示t-1时刻的隐藏层的输出,W表示收敛到终止条件时所有权重矩阵;
初始化时,Wz、Wr和h0均设为全0矩阵;
步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:
Figure FDA0002595099210000021
根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;
步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)、g(zi)和g(zi),g(zi)表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)、g(zi)和g(zi)有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。
2.根据权利要求1所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。
3.根据权利要求2所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯信息,敏感属性包括人际关系,非敏感属性包括教育、资本收益、资本损失和每周工作时间;对显示标识符进行删除或者失真处理,对准标识符脱敏处理,对敏感属性保留,而对非敏感数据则直接输出。
4.根据权利要求1所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述训练条件用交叉熵损失函数来约束,交叉熵损失函数的计算式为公式①:
Figure FDA0002595099210000031
其中,y表示实际标注值,o表示预测输出值,直至L(y,o)<0.005,则停止训练。
5.根据权利要求1所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述GRU包括结构相同的第一GRU、第二GRU和第三GRU,第一GRU、第二GRU和第三GRU分别连接Softmax层。
6.根据权利要求5所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述第一GRU的输入的向量化样本特征为按天统计的点击数,第二GRU的输入的向量化样本特征为按月统计的购买数,第三GRU的输入的向量化样本特征为按年统计的购票数。
7.根据权利要求1所述的基于机器学习的民航旅客标签分析方法,其特征在于:所述Softmax层的计算式为公式②:
Figure FDA0002595099210000041
其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。
8.一种处理终端,其包括,
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如权利要求1-7任一项所述的基于机器学习的民航旅客标签分析方法的步骤。
CN201811117393.9A 2018-09-25 2018-09-25 一种基于机器学习的民航旅客标签分析方法及处理终端 Expired - Fee Related CN109376315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811117393.9A CN109376315B (zh) 2018-09-25 2018-09-25 一种基于机器学习的民航旅客标签分析方法及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811117393.9A CN109376315B (zh) 2018-09-25 2018-09-25 一种基于机器学习的民航旅客标签分析方法及处理终端

Publications (2)

Publication Number Publication Date
CN109376315A CN109376315A (zh) 2019-02-22
CN109376315B true CN109376315B (zh) 2020-11-06

Family

ID=65401785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811117393.9A Expired - Fee Related CN109376315B (zh) 2018-09-25 2018-09-25 一种基于机器学习的民航旅客标签分析方法及处理终端

Country Status (1)

Country Link
CN (1) CN109376315B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111224875B (zh) * 2019-12-26 2021-03-19 北京邮电大学 基于信息价值确定联合数据采集及传输策略的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527223A (zh) * 2016-12-22 2017-12-29 北京锐安科技有限公司 一种购票信息分析的方法及装置
US10657955B2 (en) * 2017-02-24 2020-05-19 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models
CN108197294B (zh) * 2018-01-22 2021-10-22 桂林电子科技大学 一种基于深度学习的文本自动生成方法
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法

Also Published As

Publication number Publication date
CN109376315A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN111079022B (zh) 基于联邦学习的个性化推荐方法、装置、设备及介质
CN107315759B (zh) 归类关键字的方法、装置和处理系统、分类模型生成方法
CN106296059B (zh) 派送网点确定方法及设备
CN103295145B (zh) 一种基于用户消费特征向量的手机广告投放方法
CN106997549A (zh) 一种广告信息的推送方法及系统
JP6854748B2 (ja) 情報提供装置、情報提供方法、およびプログラム
CN111177538B (zh) 一种基于无监督权值计算的用户兴趣标签构建方法
US9665551B2 (en) Leveraging annotation bias to improve annotations
CN105468742A (zh) 恶意订单识别方法及装置
CN106874258B (zh) 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN112115363A (zh) 一种推荐方法、计算设备及存储介质
US9785705B1 (en) Generating and applying data extraction templates
CN112988774B (zh) 一种基于大数据采集的用户信息更新方法及信息服务器
CN109615060A (zh) Ctr预估方法、装置及计算机可读存储介质
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
JP2018128942A (ja) 解析装置、解析方法、およびプログラム
CN104572775A (zh) 广告分类方法、装置及服务器
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
US20240232232A1 (en) Automated data set enrichment, analysis, and visualization
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN109376315B (zh) 一种基于机器学习的民航旅客标签分析方法及处理终端
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
Cao et al. Distributed design and implementation of SVD++ algorithm for e-commerce personalized recommender system
CN111209925A (zh) 性别预测方法、装置和计算机可读存储介质
EP3418916A1 (en) Method and apparatus for determining peak sale and one year sale prediction for hardcover first releases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201106