CN111445271A - 模型生成方法、作弊酒店的预测方法、系统、设备和介质 - Google Patents
模型生成方法、作弊酒店的预测方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN111445271A CN111445271A CN202010245356.7A CN202010245356A CN111445271A CN 111445271 A CN111445271 A CN 111445271A CN 202010245356 A CN202010245356 A CN 202010245356A CN 111445271 A CN111445271 A CN 111445271A
- Authority
- CN
- China
- Prior art keywords
- hotel
- comment
- model
- predicted
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012552 review Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008451 emotion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Abstract
本发明公开了一种模型生成方法、作弊酒店的预测方法、系统、设备和介质,模型生成方法包括以下步骤:获取若干条酒店的历史点评,基于所述历史点评构建模型数据;基于所述模型数据构建离散特征;基于所述模型数据构建低维稠密特征;将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。本发明能够对作弊酒店进行预测,进一步提高虚假点评的识别信心水准。
Description
技术领域
本发明涉及OTA(Online Travel Agency,在线旅行社)平台的信息处理技术领域,特别涉及一种模型生成方法、作弊酒店的预测方法、系统、设备和介质。
背景技术
目前OTA行业中,对于酒店虚假点评的挖掘,主要是基于统计量制定的规则,这些统计量包括用户在短时间之内的订单量、点评量、好评比例等,这种方法比较传统简单,且没有结合点评文本内容等特征,信息维度来源过于单一,对于虚假点评的识别信心水准不高,很容易误伤正常的用户点评。提升挖掘虚假点评的信心水准,剔除出酒店页面展示的虚假点评,对于虚假点评达到较高比例的酒店给予特殊监控和惩罚,维护酒店页面展示数据的可靠性,给提供用户更加真实的信息,有利于提升用户体验,提高用户对品牌的满意度和忠诚度。
发明内容
本发明要解决的技术问题是为了克服现有技术中按统计量制定的规则对酒店虚假点评进行预测,信息维度来源过于单一,对于虚假点评的识别信心水准不高的缺陷,提供一种模型生成方法、作弊酒店的预测方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种模型生成方法,所述模型生成方法包括:
获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
基于所述模型数据构建离散特征;
基于所述模型数据构建低维稠密特征;
将所述离散特征和所述低维稠密特征输入至Wide&Deep(稀疏和稠密)模型中进行训练,以得到虚假点评概率预测模型。
本方案,采用深度学习中的Wide&Deep模型,将离散稀疏的特征与低维稠密的特征相结合,考虑更加丰富的维度特征,既能够保证模型的记忆能力,又可以提升模型的泛化能力。
较佳地,所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
较佳地,所述基于所述模型数据构建低维稠密特征的步骤包括:
获取历史点评的词向量;
基于所述历史点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
本方案中,虚假点评的文本内容,一般具有覆盖面广、正向形容词多的特点,其语义信息也是不可忽视的,这类特征不适于进行离散化处理,故选择将其转换成低维稠密的向量。
较佳地,所述获取点评的词向量的步骤包括利用elmo(Embeddings fromLanguage Models,基于语言模型的词向量)模型生成所述历史点评的词向量。
本方案,利用elmo模型不仅能够学习到词汇用法的复杂性,比如语法、语义,而且elmo模型能够学习不同上下文情况下的词汇多义性。
本发明还提供了一种作弊酒店的预测方法,所述作弊酒店的预测方法包括:
获取待预测酒店的所有的点评数据;
使用上述的模型生成方法生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评;
计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
本方案,采用虚假点评概率预测模型,对酒店点评是否存在虚假行为进行预测,挖掘并剔除酒店页面展示的虚假点评,降低人工审查虚假点评的费力度,节省人力。并根据预测的虚假点评概率,进一步的判定酒店是否为作弊酒店,对于虚假点评达到较高比例的酒店给予特殊监控和惩罚,维护酒店页面展示数据的可靠性,提供用户更加真实的信息,进而提升用户体验,提高用户对品牌的满意度和忠诚度。
较佳地,所述根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店的步骤包括:
S1、判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则执行步骤S2;
S2、判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
本方案,在判断酒店的虚假点评占比是否高于第一阈值后,再增加判断酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,提高了对作弊酒店预测的准确度。
本发明还提供一种模型生成系统,所述模型生成系统包括:
第一获取模块,用于获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
第一构建模块,用于基于所述模型数据构建离散特征;
第二构建模块,用于基于所述模型数据构建低维稠密特征;
训练模块,用于将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。
本方案,采用深度学习中的Wide&Deep模型,将离散稀疏的特征与低维稠密的特征相结合,考虑更加丰富的维度特征,既能够保证模型的记忆能力,又可以提升模型的泛化能力。
较佳地,所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
较佳地,所述第二构建模块包括:
获取单元,用于获取历史点评的词向量;
构建单元,基于所述历史点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
本方案中,虚假点评的文本内容,一般具有覆盖面广、正向形容词多的特点,其语义信息也是不可忽视的,这类特征不适于进行离散化处理,故选择将其转换成低维稠密的向量。
较佳地,所述获取单元用于利用elmo模型生成所述历史点评的词向量。
本方案,利用elmo模型不仅能够学习到词汇用法的复杂性,比如语法、语义,而且elmo模型能够学习不同上下文情况下的词汇多义性。
本发明还提供一种作弊酒店的预测系统,所述作弊酒店的预测系统包括:
第二获取模块,用于获取待预测酒店的所有的点评数据;
第一计算模块,用于使用上述的模型的生成系统生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
比较模块,用于比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评;
第二计算模块,用于计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
识别模块,用于根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
本方案,采用虚假点评概率预测模型,对酒店点评是否存在虚假行为进行预测,挖掘并剔除酒店页面展示的虚假点评,降低人工审查虚假点评的费力度,节省人力。并根据预测的虚假点评概率,进一步的判定酒店是否为作弊酒店,对于虚假点评达到较高比例的酒店给予特殊监控和惩罚,维护酒店页面展示数据的可靠性,提供用户更加真实的信息,进而提升用户体验,提高用户对品牌的满意度和忠诚度。
较佳地,识别模块包括第一判断单元和第二判断单元;:
所述第一判断单元用于判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则启动所述第二判断单元;
所述第二判断单元用于判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则该所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
本方案,在判断酒店的虚假点评占比是否高于第一阈值后,再增加判断酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,提高了对作弊酒店预测的准确度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的模型生成方法或上述的作弊酒店的预测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型生成方法或如上述的作弊酒店的预测方法的步骤。
本发明的积极进步效果在于:本发明提供了一种模型生成方法、作弊酒店的预测方法、系统、设备和介质,通过模型数据的构建,模型特征的构建及模型构建和训练生成了一个虚假点评概率预测模型,并利用该模型能够识别虚假点评,从而进一步地对作弊酒店的预测。对比按统计量制定的规则对酒店虚假点评进行预测,本发明能够提高虚假点评的识别信心水准。
附图说明
图1为本发明实施例1的模型生成方法的流程图。
图2为本发明实施例1中步骤S103的流程图。
图3为本发明实施例2的作弊酒店的预测方法的流程图。
图4为本发明实施例2中步骤S205的流程图。
图5为本发明实施例3的模型生成系统的模块示意图。
图6为本发明实施例3中第二构建模块的模块示意图。
图7为本发明实施例4的作弊酒店的预测系统的模块示意图。
图8为本发明实施例4中识别模块的模块示意图。
图9为本发明实施例5的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例公开了一种模型生成方法,包括以下步骤:
步骤S101、获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
步骤S102、基于所述模型数据构建离散特征;
所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
其中,第一预设时间段和第二预设时间段可以选择相同的时间段,也可以选择不同的时间段,本实施例中二者均选择最近一段时间,譬如最近7天或者最近1个月。
步骤S103、基于所述模型数据构建低维稠密特征;
步骤S104、将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。
本实施例中,模型训练与预测的具体步骤如下:
第一步,模型训练阶段:利用之前人工标注的样本进行训练,将虚假点评标记为1,非虚假点评标记为0,将上一步得到的模型特征放入Wide&Deep模型构建分类模型。
第二步,模型验证阶段:利用第一步训练得到的模型,用训练样本外的数据,检验模型效果,本发明以F1-Score(balanced F Score,平衡F分数)为指标进行校验,F1-Score越接近1,代表模型效果越好。
F1-Score是取准确率(precison)和召回率(recall)的调和平均值得到的,在机器学习二分类模型中,准确率是指模型预测为正的样本中,真正为正样本(本实施例中,即为真正的虚假点评)的占比,该指标反映了模型的查准情况;召回率是指真正的正样本中,被模型预测为正样本的占比,该指标反映了模型的查全情况。F1-Score的具体公式如下:
例如,当前数据集一共有2000条点评,其中有1000条虚假点评(正样本);模型预测为虚假点评一共1200条,其中真正为虚假点评的有900条,那么:
准确率=900/1200=75%;
召回率=900/1000=90%;
F1-Score=2*75%*90%/(75%+90%)=81.8%。
第三步,模型调整阶段:根据测试数据的模型效果,调整模型参数,并重新训练模型,直到模型的F1-Score达到要求;否则重复步骤一、二、三。
调整的模型参数,包括wide部分惩罚项,deep部分网络层神经元的个数,激活函数,学习率,batch_size(一次训练所选取的样本数)等。
例如,刚开始训练模型的时候,发现模型欠拟合(即训练集效果一直上不去,大概为0.8左右),于是考虑增加deep部分网络层神经元的个数,以增加网络的复杂程度,并且将学习率由0.1调整为0.01,batch_size由128调整为32;当模型出现过拟合的趋势时(即训练集效果很好,F1-Score接近1,但是测试集只有0.7左右),考虑是模型网络结构过于复杂,增加了wide部分惩罚项,以及增加deep部分的dropout(抛弃网络中隐藏层的节点)层等。
第四步,模型预测阶段:获取全量酒店点评数据,计算每条点评为作弊点评的概率。
如图2所示,本实施例中,步骤S103包括以下步骤:
步骤S1031、利用elmo模型获取历史点评的词向量;
步骤S1032、基于所述历史点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
本实施例中,先设置每个词相同的权重,即简单的求平均值;再在优化的过程中,通过attention(注意力机制)机制的方法,学习到每个单词的权重,将attention得到的权重,作为每个词向量的权重,进而加权求和得到最终的句向量。例如有如下作弊点评:酒店环境很好,非常满意。首先我们对句子进行分词得到:
酒店环境很好非常满意
然后得到attention权重,再对权重进行归一化,得到句向量E(S):
S=0.01*E(酒店)+0.35*E(环境)+0.05*E(很)+0.25*E(好)+0.06*E(非常)+0.28*E(满意)。
*E代表该单词(或句子)的向量化表示。
本实施例公开的模型生成方法,通过模型数据的构建,模型特征的构建及模型构建和训练生成了一个虚假点评概率预测模型,对比按统计量制定的规则对酒店虚假点评进行预测的方式,本实施例能够提高虚假点评的识别信心水准。
实施例2
如图3所示,本实施例公开了一种作弊酒店的预测方法,包括以下步骤:
步骤S201、获取待预测酒店的所有的点评数据;
步骤S202、使用实施例1的模型生成方法生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
步骤S203、比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评,若否,则所述点评数据对应的点评不为虚假点评;
步骤S204、计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
步骤S205、根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
如图4所示,本实施例中,步骤S205包括以下步骤:
步骤S2051、判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则执行步骤S2052;
步骤S2052、判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
本实施例中,用户标签状态包括“点评专家”、“点评达人”、“点评新星”,该标签是根据用户在酒店页面的点评数量决定的,点评1-5条对应“点评新星”,点评6-30条对应“点评新星”,点评30条以上对应“点评新星”。酒店的作弊点评,一般具有连续N条作弊点评对应的用户,都属于同一个标签状态的特点。
本实施例中,一般酒店刷点评,通常会有批量刷点评的行为,而不太可能只刷一条。在展示给用户的酒店页面上,看到连续几条、几十条点评,都具有虚假点评的特征。所以在最后提供高度疑似作弊点评酒店的名单时,除了利用模型得到的每条点评是否是作弊点评的结果,还会在这个基础上,考虑连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于一定阈值的特点。
本实施例公开的作弊酒店的预测方法,通过获取待预测酒店的所有的点评数据,并利用前述的已训练好的虚假点评概率预测模型对酒店的虚假点评的概率进行预测,从而进一步地对作弊酒店的预测。
实施例3
如图5所示,本实施例公开了一种模型生成系统,包括:
第一获取模块1,用于获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
第一构建模块2,用于基于所述模型数据构建离散特征;
所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
其中,第一预设时间段和第二预设时间段可以选择相同的时间段,也可以选择不同的时间段,本实施例中二者均选择最近一段时间,譬如最近7天或者最近1个月。
第二构建模块3,用于基于所述模型数据构建低维稠密特征;
训练模块4,用于将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。
本实施例中,模型训练与预测的具体步骤如下:
第一步,模型训练阶段:利用之前人工标注的样本进行训练,将虚假点评标记为1,非虚假点评标记为0,将上一步得到的模型特征放入Wide&Deep模型构建分类模型。
第二步,模型验证阶段:利用第二步训练得到的模型,用训练样本外的数据,检验模型效果,本发明以F1-Score为指标进行校验,F1-Score越接近1,代表模型效果越好。
F1-Score是取准确率和召回率(的调和平均值得到的,在机器学习二分类模型中,准确率是指模型预测为正的样本中,真正为正样本(本实施例中,即为真正的虚假点评)的占比,该指标反映了模型的查准情况;召回率是指真正的正样本中,被模型预测为正样本的占比,该指标反映了模型的查全情况。F1-Score的具体公式如下:
例如,当前数据集一共有2000条点评,其中有1000条虚假点评(正样本);模型预测为虚假点评一共1200条,其中真正为虚假点评的有900条,那么:
准确率=900/1200=75%;
召回率=900/1000=90%;
F1-Score=2*75%*90%/(75%+90%)=81.8%。
第三步,模型调整阶段:根据测试数据的模型效果,调整模型参数,并重新训练模型,直到模型的F1-Score达到要求。否则重复步骤一、二、三。
调整的模型参数,包括wide部分惩罚项,deep部分网络层神经元的个数,激活函数,学习率,batch_size等。
例如,刚开始训练模型的时候,发现模型欠拟合(即训练集效果一直上不去,大概为0.8左右),于是考虑增加deep部分网络层神经元的个数,以增加网络的复杂程度,并且将学习率由0.1调整为0.01,batch_size由128调整为32;当模型出现过拟合的趋势时(即训练集效果很好,F1-Score接近1,但是测试集只有0.7左右),考虑是模型网络结构过于复杂,增加了wide部分惩罚项,以及增加deep部分的dropout层等。
第四步,模型预测阶段:获取全量酒店点评数据,计算每条点评为作弊点评的概率。
如图6所示,本实施例中,第二构建模块2包括:
获取单元21,用于利用elmo模型用于获取历史点评的词向量;
构建单元22,用于基于所述点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
本实施例中,先设置每个词相同的权重,即简单的求平均值;再在优化的过程中,通过attention机制的方法,学习到每个单词的权重,将attention得到的权重,作为每个词向量的权重,进而加权求和得到最终的句向量。例如有如下作弊点评:酒店环境很好,非常满意。首先我们对句子进行分词得到:
酒店环境很好非常满意
然后得到attention权重,再对权重进行归一化,得到句向量E(S):
S=0.01*E(酒店)+0.35*E(环境)+0.05*E(很)+0.25*E(好)+0.06*E(非常)+0.28*E(满意)。
*E代表该单词(或句子)的向量化表示。
本实施例公开的模型的生成系统,通过模型数据的构建,模型特征的构建及模型构建和训练生成了一个虚假点评概率预测模型,对比按统计量制定的规则对酒店虚假点评进行预测的方式,本实施例能够提高虚假点评的识别信心水准。
实施例4
如图7所示,本实施例公开了一种作弊酒店的预测系统,包括:
第二获取模块5,用于获取待预测酒店的所有的点评数据;
第一计算模块6,用于使用实施例3的模型的生成系统生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
比较模块7,用于比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评,若否,则所述点评数据对应的点评不为虚假点评;
第二计算模块8,用于计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
识别模块9,用于根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
如图8所示,本实施例中,识别模块9包括第一判断单元91和第二判断单元92。
第一判断单元91,用于判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则启动第二判断单元92;
第二判断单元92,用于判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
本实施例中,用户标签状态包括“点评专家”、“点评达人”、“点评新星”,该标签是根据用户在酒店页面的点评数量决定的,点评1-5条对应“点评新星”,点评6-30条对应“点评新星”,点评30条以上对应“点评新星”。酒店的作弊点评,一般具有连续N条作弊点评对应的用户,都属于同一个标签状态的特点。
本实施例中,一般酒店刷点评,通常会有批量刷点评的行为,而不太可能只刷一条。在展示给用户的酒店页面上,看到连续几条、几十条点评,都具有虚假点评的特征。所以在最后提供高度疑似作弊点评酒店的名单时,除了利用模型得到的每条点评是否是作弊点评的结果,还会在这个基础上,考虑连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于一定阈值的特点。
本实施例公开的作弊酒店的预测系统,通过获取待预测酒店的所有的点评数据,并利用前述的已训练好的虚假点评概率预测模型对酒店的虚假点评的概率进行预测,从而进一步地对作弊酒店的预测。
实施例5
图9为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的模型生成方法及实施例2所提供的作弊酒店的预测方法。图9显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明施例1所提供的模型生成方法及实施例2所提供的作弊酒店的预测方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的模型生成方法及实施例2所提供的作弊酒店的预测方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的模型生成方法及实施例2所提供的作弊酒店的预测方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种模型生成方法,其特征在于,所述模型生成方法包括:
获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
基于所述模型数据构建离散特征;
基于所述模型数据构建低维稠密特征;
将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。
2.如权利要求1所述的模型生成方法,其特征在于,所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
3.如权利要求1所述的模型生成方法,其特征在于,所述基于所述模型数据构建低维稠密特征的步骤包括:
获取历史点评的词向量;
基于所述历史点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
4.如权利要求3所述的模型生成方法,其特征在于,所述获取历史点评的词向量的步骤包括利用elmo模型生成所述历史点评的词向量。
5.一种作弊酒店的预测方法,其特征在于,所述作弊酒店的预测方法包括:
获取待预测酒店的所有的点评数据;
使用如权利要求1至4任一项所述的模型生成方法生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评;
计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
6.如权利要求5所述的作弊酒店的预测方法,其特征在于,所述根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店的步骤包括:
S1、判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则执行步骤S2;
S2、判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
7.一种模型生成系统,其特征在于,所述模型生成系统包括:
第一获取模块,用于获取若干条酒店的历史点评,基于所述历史点评构建模型数据;
第一构建模块,用于基于所述模型数据构建离散特征;
第二构建模块,用于基于所述模型数据构建低维稠密特征;
训练模块,用于将所述离散特征和所述低维稠密特征输入至Wide&Deep模型中进行训练,以得到虚假点评概率预测模型。
8.如权利要求7所述的模型生成系统,其特征在于,所述离散特征包括酒店维度特征、用户维度特征、点评维度特征;
所述酒店维度特征包括所述酒店第一预设时间段相比历史同时期的订单量、点评量和/或高星点评数占比;
所述用户维度特征包括用户第二预设时间段下单量、点评量和/或高星点评数占比;
所述点评维度特征包括点评分数、总字数、点评覆盖内容数和/或情感维度特征。
9.如权利要求7所述的模型生成系统,其特征在于,所述第二构建模块包括:
获取单元,用于获取历史点评的词向量;
构建单元,基于所述历史点评的词向量构建所述历史点评的句向量,并将所述句向量作为所述低维稠密特征。
10.如权利要求9所述的模型生成系统,其特征在于,所述获取单元用于利用elmo模型生成所述历史点评的词向量。
11.一种作弊酒店的预测系统,其特征在于,所述作弊酒店的预测系统包括:
第二获取模块,用于获取待预测酒店的所有的点评数据;
第一计算模块,用于使用如权利要求7至10任一项所述的模型的生成系统生成的虚假点评概率预测模型计算每一条所述点评数据为虚假点评的概率;
比较模块,用于比较每一条所述点评数据对应的虚假点评的概率是否高于预设阈值,若是,则所述点评数据对应的点评为虚假点评;
第二计算模块,用于计算所述待预测酒店的所述虚假点评的条数与所述待预测酒店的所有所述点评的条数之比,以得到所述待预测酒店的虚假点评占比;
识别模块,用于根据所述待预测酒店的虚假点评占比识别所述待预测酒店是否为作弊酒店。
12.如权利要求11所述的作弊酒店的预测系统,其特征在于,识别模块包括第一判断单元和第二判断单元;
所述第一判断单元用于判断所述待预测酒店的虚假点评占比是否高于第一阈值,若否,则所述待预测酒店不是作弊酒店,若是,则启动所述第二判断单元;
所述第二判断单元用于判断所述待预测酒店的连续N条所述点评数据中五星点评的数量及同一标签用户的点评占比是否高于第二阈值,若否,则所述待预测酒店不是作弊酒店,若是,则所述待预测酒店为作弊酒店;N为大于等于1的整数;所述同一标签用户的点评占比为所述同一标签用户的点评条数与所述待预测酒店的所有所述点评的条数之比。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的模型生成方法或如权利要求5至6任一项所述的作弊酒店的预测方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的模型生成方法或如权利要求5至6任一项所述的作弊酒店的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245356.7A CN111445271A (zh) | 2020-03-31 | 2020-03-31 | 模型生成方法、作弊酒店的预测方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245356.7A CN111445271A (zh) | 2020-03-31 | 2020-03-31 | 模型生成方法、作弊酒店的预测方法、系统、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111445271A true CN111445271A (zh) | 2020-07-24 |
Family
ID=71649475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010245356.7A Pending CN111445271A (zh) | 2020-03-31 | 2020-03-31 | 模型生成方法、作弊酒店的预测方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445271A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331592A (zh) * | 2021-12-10 | 2022-04-12 | 北京互金新融科技有限公司 | 识别恶意刷单行为的方法 |
CN116385029A (zh) * | 2023-04-20 | 2023-07-04 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160070709A1 (en) * | 2014-09-09 | 2016-03-10 | Stc.Unm | Online review assessment using multiple sources |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
CN110599200A (zh) * | 2019-09-10 | 2019-12-20 | 携程计算机技术(上海)有限公司 | Ota酒店的虚假地址的检测方法、系统、介质及设备 |
-
2020
- 2020-03-31 CN CN202010245356.7A patent/CN111445271A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160070709A1 (en) * | 2014-09-09 | 2016-03-10 | Stc.Unm | Online review assessment using multiple sources |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
CN110599200A (zh) * | 2019-09-10 | 2019-12-20 | 携程计算机技术(上海)有限公司 | Ota酒店的虚假地址的检测方法、系统、介质及设备 |
Non-Patent Citations (2)
Title |
---|
MEILING FU: "Spam Comment Recognition Based on Wide & Deep Learning" * |
王新月: "基于多维特征与深度学习的虚假评论识别研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331592A (zh) * | 2021-12-10 | 2022-04-12 | 北京互金新融科技有限公司 | 识别恶意刷单行为的方法 |
CN116385029A (zh) * | 2023-04-20 | 2023-07-04 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
CN116385029B (zh) * | 2023-04-20 | 2024-01-30 | 深圳市天下房仓科技有限公司 | 酒店刷单检测方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN110019736B (zh) | 基于语言模型的问答匹配方法、系统、设备及存储介质 | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN113946681B (zh) | 文本数据的事件抽取方法、装置、电子设备及可读介质 | |
CN113807973B (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
CN113887930A (zh) | 问答机器人健康度评估方法、装置、设备及存储介质 | |
CN111160000A (zh) | 作文自动评分方法、装置终端设备及存储介质 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN111445271A (zh) | 模型生成方法、作弊酒店的预测方法、系统、设备和介质 | |
Ayyadevara | Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots | |
CN110826327A (zh) | 情感分析方法、装置、计算机可读介质及电子设备 | |
CN114492661A (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN113591998A (zh) | 分类模型的训练和使用方法、装置、设备以及存储介质 | |
CN112069404A (zh) | 一种商品信息的展示方法、装置、设备和存储介质 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114118526A (zh) | 一种企业风险预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |