发明内容
本说明书实施例提供一种线上店铺真实性的识别方法和装置。
第一方面,本说明书实施例提供一种线上店铺真实性的识别方法,所述方法包括:
获得M个店铺的每个店铺的标签信息和第一数据信息,其中,所述每个店铺的标签信息和第一数据信息具有第一对应关系;
根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,其中,M大于N、M大于P,且M大于N与P之和;
将所述N个店铺和所述P个店铺作为第一样本数据,并从所述第一样本数据中获得第一特征数据,其中,所述第一特征数据表征了所述真实店铺的特征信息和/或非真实店铺的特征信息,所述第一特征数据与所述标签信息具有第二对应关系;
根据所述第一对应关系和所述第二对应关系,获得所述第一特征数据、标签信息、所述第一数据信息之间的第三对应关系;
从所述M个店铺中获得Q个店铺,并根据评分卡模型对所述Q个店铺按照所述第三对应关系进行模型训练,获得第一评分卡预测模型;
根据所述第一评分卡预测模型对线上店铺进行真实性识别。
第二方面,本说明书实施例提供一种线上店铺真实性的识别装置,所述装置包括:
信息获得单元,用于获得M个店铺的每个店铺的标签信息和第一数据信息,其中,所述每个店铺的标签信息和第一数据信息具有第一对应关系;
店铺信息获得单元,用于根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,其中,M大于N、M大于P,且M大于N与P之和;
特征数据获得单元,用于将所述N个店铺和所述P个店铺作为第一样本数据,并从所述第一样本数据中获得第一特征数据,其中,所述第一特征数据表征了所述真实店铺的特征信息和/或非真实店铺的特征信息,所述第一特征数据与所述标签信息具有第二对应关系;
对应关系获得单元,用于根据所述第一对应关系和所述第二对应关系,获得所述第一特征数据、标签信息、所述第一数据信息之间的第三对应关系;
第一评分卡预测模型获得单元,用于从所述M个店铺中获得Q个店铺,并根据评分卡模型对所述Q个店铺按照所述第三对应关系进行模型训练,获得第一评分卡预测模型;
店铺识别单元,用于根据所述第一评分卡预测模型对线上店铺进行真实性识别。
第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述任一项所述方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例提供的线上店铺真实性的识别方法,通过选取训练样本以及抽取店铺真实性相关的特征,建立评分卡模型来对店铺的真实性进行预测。基于店铺总体的特征情况作出的判断可靠性更高,且可以对所有的店铺判断真实性,适用面更广,可以确定店铺的真实性与非真实性。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
请参见图1,为本说明书实施例的线上店铺真实性的识别应用场景示意图。终端10位于用户侧,与网络侧的服务器20通信。终端10中的交易处理客户端101可以是基于互联网实现业务的APP或网站,为用户提供交易的界面并将交易数据提供给网络侧进行处理;服务器20中的第一评分卡预测模型201用于对交易处理客户端101中涉及的线上店铺进行真实性识别。
本说明书实施例针对在一些互联网产品中,通常需要对互联网上的店铺进行真实性识别,即判断店铺是否真实存在,若店铺不真实存在,则需要做下架处理,现有技术中只能召回一些真实店铺,无法确定非真实店铺,且召回的真实店铺数量相对较少,局限性大。本说明书实施例通过选取训练样本以及抽取店铺真实性相关的特征,建立评分卡模型来对店铺的真实性进行识别预测,可以判断所有店铺的真实性,判断可靠性更高,适用面更广,且可以确定店铺的真实性与非真实性。
为了更清楚公开本申请实施例所提供的一种线上店铺真实性的识别方法,下面介绍一些术语。
1.WOE(weight of evidence,证据权重)是一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值。具有将特征的值规范到相近的尺度上的优势。
2.LR(Logistics Regression,逻辑回归)是广义线性模型中的一种,其取值为0或1,服从伯努利分布。逻辑回归选用的是sigmoid函数的理论,逻辑回归可以用于二分类问题,只能解决线性可分的情况,不能用于线性不可分。
实施例一
第一方面,本说明书实施例提供一种线上店铺真实性的识别方法,请参考图2及图3,该方法包括步骤S101-S106。
S101:获得M个店铺的每个店铺的标签信息和第一数据信息,其中,所述每个店铺的标签信息和第一数据信息具有第一对应关系。
具体而言,监督(supervised)与非监督(unsupervised)学习最大的区别是输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。本实施例中采用的是监督学习的方法。由于目前没有现成的店铺真实与否的标注数据集,故本申请创新性地利用一些强规则生成了M个店铺样本作为训练集,M个店铺的每个店铺具有相互对应的标签信息和第一数据信息。
S202:根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,其中,M大于N、M大于P,且M大于N与P之和。
在一种可选实现方式中,所述根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,还包括:获得正评价规则,所述正评价规则表示所述店铺为活跃店铺;根据所述正评价规则,从所述M个店铺中的所述第一数据信息中获得N个店铺为真实店铺;和/或,获得负评价规则,所述负评价规则表示所述店铺为非活跃店铺;根据所述负评价规则从所述M个店铺中的所述第一数据信息中获得P个店铺为非真实店铺。
具体而言,M个店铺样本中真实店铺作为正样本(label=1),非真实店铺作为负样本(label=0)。通过正评价规则确定真实店铺,即正样本。举例而言,本申请实施例运用于美团点评/猫途鹰的店铺真实性识别中,正评价规则包括:有运营活动的店铺。运营活动包括:店铺正在销售代金券;店铺有团购活动;店铺有促销活动,如:返现、折扣、赠送饮料等。和/或,支持订座的店铺。有部分店铺支持提前在线预定座位。和/或,有被签到的店铺。消费者到店消费时,可以用手机基于LBS信息进行签到。和/或,有问答回复的店铺。消费者可以在店铺页下面进行提问,一般会有店主或者曾经到店消费过的人来回复。和/或,合作商户。一些店铺会进行付费广告投放,来提升店铺流量。
通过负评价规则确定非真实店铺,即负样本。举例而言,负评价规则包括:利用店名和地址在谷歌上进行搜索,向用户返回的信息中包括“永久停业”的店铺。本申请会对谷歌搜索返回的店铺进行匹配验证,确保返回的店铺是所搜索的店铺。具体地,返回的店铺名与搜索的店铺名一样,返回店铺的经纬度与所搜索的店铺的经纬度距离在1公里以内。当然,谷歌搜索没有返回“永久停业”的店铺并不能保证店铺是真实存在的。
通过上述的正评价规则与负评价规则选出的样本作为真实或不真实店铺样本,但由于获取到的正样本的数量远大于负样本,属于典型的不平衡分类问题,解决类别不平衡问题一般有上采样、下采样、代价敏感学习等方法。本实施例中对正样本进行了下采样,保证正负样本的比例约为1:1,最终约有N个(45000个)正样本和P个(45000个)负样本,构成了训练集,可表示为(shop_id,label)二元组的形式,其中shop_id是唯一表示店铺的id。
S203:将所述N个店铺和所述P个店铺作为第一样本数据,并从所述第一样本数据中获得第一特征数据,其中,所述第一特征数据表征了所述真实店铺的特征信息和/或非真实店铺的特征信息,所述第一特征数据与所述标签信息具有第二对应关系。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:根据所述第一样本数据获得第一区分度,其中,所述第一区分度表示所述真实店铺和非真实店铺的区分度指标;根据所述第一区分度获得所述第一特征数据。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:根据所述第一样本数据获得第一覆盖度,其中,所述第一覆盖度表示所述真实店铺和非真实店铺的覆盖度指标;根据所述第一覆盖度获得所述第一特征数据。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:获得根据所述第一样本数据中的店铺点评信息;对所述店铺点评信息进行语义分析,获得第一语义分析数据;对所述第一语义分析数据进行文本分类,并对所述文本分类后的信息进行特征向量分析;根据所述特征向量分析评价所述店铺点评信息的特征向量值;根据所述特征向量值获得第一特征数据。
具体而言,特征的好坏对最终模型能达到的效果起到了决定性的作用,在构建特征的过程中,不但要考虑到特征对正负类别的区分度,还要考虑到特征的覆盖情况。第一特征数据的获取可通过以下方式:
举例而言,第一,店铺最新的评论日期距离今天的天数或月数。一般真实店铺会不断有新的用户评论,所以最新的评论日期距离今天比较近,而一些不存在的店铺评论基本上很久都不会再更新了,所以最新的评论日期距离今天较远。第二,店铺的评论数、图片数、星级、口味、环境、服务、人均信息。店铺的评论、图片越多,反应出该店铺越是热门,更可能是真实店铺。相反,店铺只有零零星星几条评论,甚至没有评论,则更倾向于是非真实店铺。而店铺的星级、口味、环境、服务、人均则是店铺的一些基本用户反馈信息。第三,店铺是否有评论信息。最近1个月、3个月、6个月评论数是否有变化。真实店铺评论经常更新,所以评论数会变化,而不真实店铺由于已经不存在了,评论基本不更新。第四,店铺的电话、营业时间、别名、WiFi、服务设施信息。刻画店铺信息是否完善。第五,店铺好评、中评、差评的数目及占比。刻画之前用户对店铺的评价如何,评价太差的可能已经关门倒闭了。第六,店铺是否有品牌名、是否有分店。品牌店铺,连锁店铺真实性更高。第七,店铺标签,如:米其林一星、海外美食精选、当地旅游局推荐等。有高质量店铺标签的店铺更可能是真实店铺。第八,店铺的一级分类,是否有二级分类。一级分类:美食、购物、酒店、服务,其中美食店铺的评论相较于购物、酒店和服务而言要更多一些,需区别对待。第九,店铺是否有“该店已经关门大吉不存在了”相似语意的评论。
上述第九条中涉及的评论进行语意识别时可采用文本分类的方法处理。请参考图4,具体的,首先对所有评论进行中文分词,然后训练一个无监督的word2vec模型,将每个词表示成一个稠密的向量(本实施例中采用skip-gram语言模型,将向量的维度设为100,单词窗口大小为5,学习率0.025),将每条评论中所有的词对应的向量及对应维度,计算平均值得到表示该评论的特征向量。利用标注的少量评论数据集训练一个监督的LR(logisticsregression)模型,对全量的评论进行分类,每条评论都会得到一个标签:Y/N,Y表示“该店已经关门大吉不存在了”,而N则不是表达这个意思。将评论分类模型的输出作为了店铺真实性分类模型的输入特征。
S204:根据所述第一对应关系和所述第二对应关系,获得所述第一特征数据、标签信息、所述第一数据信息之间的第三对应关系。
具体而言,第一特征数据、标签信息、所述第一数据信息之间的第三对应关系,即为全量店铺的特征向量以及通过强规则标注的训练集正负样本,两者根据shop_id关联起来,表示成(shop_id,label,feature_vector)三元组的形式。
S205:从所述M个店铺中获得Q个店铺,并根据评分卡模型对所述Q个店铺按照所述第三对应关系进行模型训练,获得第一评分卡预测模型。
具体而言,有了训练数据后,可以采用机器学习算法构建一个二分类模型。本申请从45000正样本和45000负样本中各随机抽取20%(约9000)作为测试集,剩余部分即Q各店铺进行模型训练。
评分卡是在信用风险评估领域常用的建模工具,原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归,线性回归等)进行模型训练。评分卡区别于普通的线性模型的最大的地方在于,评分卡在使用线性模型进行训练之前会对数据进行一定的特征工程处理。
本申请实验了两种特征工程方法,均需要经过分箱将特征离散化,一种方法是将每个变量根据分箱结果进行One-Hot编码分别生成N个dummy变量(N为变量的分箱的个数),另一种方法是WOE转换,即将变量的原始值使用变量落入的分箱所对应的WOE值进行替换。分箱是一种数据离散化、二值化的操作。常用包括等频、等距两种办法;本申请使用的是等频的方式。
WOE的计算公式如下:
其中,Bi是第i组非真实店铺数,BT为总的非真实店铺数;Gi是第i组真实店铺数,GT为总的真实店铺数。WOE反映的是在自变量每个分组下非真实店铺对真实店铺的比例和总体中非真实店铺对真实店铺的比例之间的差异。从而可以直观的认为WOE蕴含了自变量取值对于目标变量的影响,因而可以将自变量的WOE值替代原先的自变量值。本申请实施例中采用了特征离散化的方法。
S206:根据所述第一评分卡预测模型对线上店铺进行真实性识别。
具体而言,训练好的第一评分卡模型即可用来对未知真实与否的店铺(即仅有shop_id和feature_vector)进行分类预测。输入店铺的特征向量给已训练的第一评分卡模型,所述模型就会返回一个预测label值(0或者1,0表示非真实店铺,1表示真实店铺)。通过第一评分卡模型预测结果对店铺进行质量检测,从而将非真实的店铺做下架处理。
实施例二
第二方面,基于同一发明构思,本说明书实施例提供一种线上店铺真实性的识别装置,请参考图5,包括:
信息获得单元11,用于获得M个店铺的每个店铺的标签信息和第一数据信息,其中,所述每个店铺的标签信息和第一数据信息具有第一对应关系;
店铺信息获得单元12,用于根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,其中,M大于N、M大于P,且M大于N与P之和;
特征数据获得单元13,用于将所述N个店铺和所述P个店铺作为第一样本数据,并从所述第一样本数据中获得第一特征数据,其中,所述第一特征数据表征了所述真实店铺的特征信息和/或非真实店铺的特征信息,所述第一特征数据与所述标签信息具有第二对应关系;
对应关系获得单元14,用于根据所述第一对应关系和所述第二对应关系,获得所述第一特征数据、标签信息、所述第一数据信息之间的第三对应关系;
第一评分卡预测模型获得单元15,用于从所述M个店铺中获得Q个店铺,并根据评分卡模型对所述Q个店铺按照所述第三对应关系进行模型训练,获得第一评分卡预测模型;
店铺识别单元16,用于根据所述第一评分卡预测模型对线上店铺进行真实性识别。
在一种可选实现方式中,所述根据M个店铺的所述第一数据信息获得N个店铺为真实店铺,P个店铺为非真实店铺,还包括:
正评价规则获得单元,用于获得正评价规则,所述正评价规则表示所述店铺为活跃店铺;
真实店铺获得单元,用于根据所述正评价规则从所述M个店铺中的所述第一数据信息中获得N个店铺为真实店铺;
和/或,
负评价规则获得单元,用于获得负评价规则,所述负评价规则表示所述店铺为非活跃店铺;
第一非真实店铺获得单元,用于根据所述负评价规则从所述M个店铺中的所述第一数据信息中获得P个店铺为非真实店铺。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:
第一区分度获得单元,用于获得第一区分度,其中,所述第一区分度表示所述真实店铺和非真实店铺的区分度指标;
根据所述第一区分度获得所述第一特征数据。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:
第一覆盖度获得单元,用于获得第一覆盖度,其中,所述第一覆盖度表示所述真实店铺和非真实店铺的覆盖度指标;
第一特征数据获得单元,用于根据所述第一覆盖度获得所述第一特征数据。
在一种可选实现方式中,所述从所述第一样本数据中获得第一特征数据,还包括:
点评信息获得单元,用于获得第一数据信息中的店铺点评信息;
第一语义分析数据获得单元,用于对所述店铺点评信息进行语义分析,获得第一语义分析数据;
信息分析单元,用于对所述第一语义分析数据进行文本分类,并对所述文本分类后的信息进行特征向量分析;
评价单元,用于根据所述特征向量分析评价所述店铺点评信息的特征向量值;
店铺真实性确定单元,用于根据所述特征向量值确定所述店铺为真实店铺还是非真实店铺。
实施例三
第三方面,基于与前述实施例中线上店铺真实性的识别方法同样的发明构思,本发明还提供一种服务器,如图6所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文所述异常交易识别方法的任一方法的步骤。
其中,在图6中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
第四方面,基于与前述实施例中线上店铺真实性的识别的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述异常交易识别的方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的宗旨和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。