CN110599200A - Ota酒店的虚假地址的检测方法、系统、介质及设备 - Google Patents

Ota酒店的虚假地址的检测方法、系统、介质及设备 Download PDF

Info

Publication number
CN110599200A
CN110599200A CN201910850396.1A CN201910850396A CN110599200A CN 110599200 A CN110599200 A CN 110599200A CN 201910850396 A CN201910850396 A CN 201910850396A CN 110599200 A CN110599200 A CN 110599200A
Authority
CN
China
Prior art keywords
hotel
address
ota
user
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910850396.1A
Other languages
English (en)
Other versions
CN110599200B (zh
Inventor
江小林
罗超
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201910850396.1A priority Critical patent/CN110599200B/zh
Publication of CN110599200A publication Critical patent/CN110599200A/zh
Application granted granted Critical
Publication of CN110599200B publication Critical patent/CN110599200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种OTA酒店的虚假地址的检测方法、系统、介质及设备,所述检测方法包括:获取用户入住所述OTA酒店期间的用户坐标;计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;统计所述距离超过第一预设阈值的所述用户坐标的数量;判断所述数量是否达到第一数量阈值要求;若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址。本发明技术方案不仅节省了人工询问的人力资源成本,而且还可以有效提升用户体验,避免用户损失,同时,对于提升酒店品牌的影响力起到了重要推动作用。

Description

OTA酒店的虚假地址的检测方法、系统、介质及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种OTA酒店的虚假地址的检测方法、系统、介质及电子设备。
背景技术
在OTA(在线旅游)行业中,部分酒店出于引流目的,故意维护错误的地址/经纬度信息,将酒店定位在交通枢纽/商圈附近,导致大量投诉。
现有技术中,主要是通过人工打电话的形式对酒店的地址信息进行准确性核实,当酒店数量很大的时候,这种核实方法需要消耗大量的人力资源,且酒店的地址信息可能随时发生变化,对于一个酒店来说,需要多次进行人工核实,这样周而复始的核实操作不仅实时性很低,还会造成信息维护成本居高不下。另外,也有一部分酒店地址的调查通过调查问卷的方式展开,但是这种方式需要用户配合,很少有用户会愿意反馈这些信息内容,造成信息采集不完备,最终使得对酒店地址的评估不准确。
发明内容
本发明要解决的技术问题是为了克服现有技术中不能实时、准确的核实OTA酒店地址的缺陷,提供一种OTA酒店的虚假地址的检测方法、系统、介质及电子设备。
本发明是通过下述技术方案来解决上述技术问题:
一种OTA酒店的虚假地址的检测方法,所述检测方法包括:
获取用户入住所述OTA酒店期间的用户坐标;
计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
统计所述距离超过第一预设阈值的所述用户坐标的数量;
判断所述数量是否达到第一数量阈值要求;
若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址。
较佳地,若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址的步骤包括:
若所述数量达到所述第一数量阈值要求,则对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离超过第二预设阈值,则确定所述OTA酒店为第一类虚假地址酒店;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离不超过所述第二预设阈值,则确定所述OTA酒店为第二类虚假地址酒店。
较佳地,所述用户坐标的总数量为N,N为正整数;对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇的步骤包括:
选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;
分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;
分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;
分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;
比较每个所述聚类簇的新中心点与前一中心点是否一致;
若不一致,则重新执行分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点的步骤。
较佳地,所述确定所述OTA酒店在线登记的地址为虚假地址的步骤之前还包括:获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型;
若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址的步骤包括:
若所述数量达到所述第一数量阈值要求,则将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量达到第二数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址。
一种OTA酒店的虚假地址的检测系统,所述检测系统包括:
用户坐标获取模块,用于获取用户入住所述OTA酒店期间的用户坐标;
距离计算模块,用于计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
统计模块,用于统计所述距离超过第一预设阈值的所述用户坐标的数量;
判断模块,用于判断所述数量是否达到第一数量阈值要求;
若所述数量达到所述第一数量阈值要求,则调用虚假地址确认模块,所述虚假地址确认模块用于确定所述OTA酒店在线登记的地址为虚假地址。
较佳地,所述虚假地址确认模块包括聚类子模块以及确认执行子模块:
若所述数量达到所述第一数量阈值要求,则所述聚类子模块用于对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离超过第二预设阈值,则所述确认执行子模块用于确定所述OTA酒店为第一类虚假地址酒店;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离不超过所述第二预设阈值,则所述确认执行子模块还用于确定所述OTA酒店为第二类虚假地址酒店。
较佳地,所述用户坐标的总数量为N,N为正整数;
所述聚类子模块用于选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;比较每个所述聚类簇的新中心点与前一中心点是否一致;
若不一致,则所述聚类子模块还用于重新执行分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点的步骤。
较佳地,所述检测系统还包括:
酒店点评获取模块,用于获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;
训练模块,用于以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型;
若所述数量达到所述第一数量阈值要求,则所述虚假地址确认模块用于将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量达到第二数量阈值要求,则所述虚假地址确认模块确定所述OTA酒店在线登记的地址为虚假地址。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述的OTA酒店的虚假地址的检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的OTA酒店的虚假地址的检测方法的步骤。
本发明的积极进步效果在于:本发明提供的OTA酒店的虚假地址的检测方法、系统、介质及电子设备通过获取用户入住所述OTA酒店后的用户坐标;计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;然后根据用户坐标与OTA酒店在线登记的地址坐标之间的距离,以及所述距离超过第一预设阈值的所述用户坐标的数量来检测得到具有虚假地址的OTA酒店,不仅节省了人工询问的人力资源成本,而且还可以有效提升用户体验,避免用户损失,同时,对于提升酒店品牌的影响力起到了重要推动作用。
附图说明
图1为本发明实施例1中的一种OTA酒店的虚假地址的检测方法的流程图。
图2为本发明实施例2中的一种OTA酒店的虚假地址的检测方法的流程图。
图3为本发明实施例3中的一种OTA酒店的虚假地址的检测方法的流程图。
图4为本发明实施例4中的一种OTA酒店的虚假地址的检测系统的结构框图。
图5为本发明实施例5中的一种OTA酒店的虚假地址的检测系统的结构框图。
图6为本发明实施例6中的一种OTA酒店的虚假地址的检测系统的结构框图。
图7是本发明实施例7中的实现OTA酒店的虚假地址的检测方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种OTA酒店的虚假地址的检测方法,请参考图1,所述检测方法包括如下步骤:
步骤S1:获取用户入住所述OTA酒店期间的用户坐标;
本实施例中,所述用户坐标也可以被称为打点坐标,每个所述用户坐标以经度和纬度来限定,例如:用户坐标A(纬度为22.6度,经度为114度)在采集用户坐标时,考虑到用户白天可能会不断的移动,这样的用户坐标数据不能真实反映出用户所在酒店的实际坐标。基于此,本实施例选取的是凌晨1-4点间的用户坐标信息,并且每个用户都选取该时间段内的任意2个坐标,如此操作不但可以增加评估的准确性,而且还可以防止数据过于倾斜。
接下来,需要对采集完成的用户坐标进行预处理,即动态点去除。具体地,对于每个用户来说,如果2个坐标点之间的距离大于第一距离(例如:1km),就认为这是一个动态点,动态点不能真实反映用户所入住酒店的地址,因而将该用户坐标进行过滤去除。另外,如果一家酒店的用户坐标数据不超过十个点,则认为数据不具备代表性,也进行过滤去除。如果用户坐标与待检测酒店的距离大于第二距离(例如:10km),由于实际不可能存在此种情况,则可以认为系统在检测时将入住总店的用户错误的与分店进行匹配,在此种情况的用户坐标也进行过滤去除。
对于预处理之后得到的用户坐标,可以继续执行如下步骤:
步骤S2:计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
步骤S3:统计所述距离超过第一预设阈值的所述用户坐标的数量;
优选地,所述第一预设阈值可以设置为400米。
步骤S4:判断所述数量是否达到第一数量阈值要求;
所述数量达到第一数量阈值要求可以是所述数量本身超过了某一数量阈值(例如:数量超过了10、20、60),也可以是所述数量与用户坐标总数量的比值超过了某一数量阈值(例如:比值超过了50%、60%、80%),本领域技术人员可以根据具体需求而进行设置,本实施例对此不作限制。
若所述数量达到所述第一数量阈值要求,则执行步骤S5:确定所述OTA酒店在线登记的地址为虚假地址。
若所述数量未达到所述第一数量阈值要求,则可以返回执行步骤S1,从而可以实现对所述OTA酒店在线登记地址的实时监控。
本实施例提供的OTA酒店的虚假地址的检测方法通过获取用户入住所述OTA酒店后的用户坐标,然后计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离,接下来根据用户坐标与OTA酒店在线登记的地址坐标之间的距离,以及所述距离超过第一预设阈值的所述用户坐标的数量来检测具有虚假地址的OTA酒店,不仅节省了人工询问的人力资源成本,而且还可以有效提升用户体验,避免用户损失,同时,对于提升酒店品牌的影响力起到了重要推动作用。
实施例2
本实施例提供一种OTA酒店的虚假地址的检测方法,请参考图2,所述检测方法是在实施例1基础上的进一步改进。
具体地,若所述数量达到所述第一数量阈值要求,则步骤S5可以具体包括:
步骤S51;对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
步骤S52:判断具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离是否超过第二预设阈值;
若判断结果为是,则执行步骤S53:确定所述OTA酒店为第一类虚假地址酒店;
若判断结果为否,则执行步骤S54:确定所述OTA酒店为第二类虚假地址酒店。
其中,第一类虚假地址酒店可以分类标记为高危虚假地址酒店以及中危虚假地址酒店,具体地,若多个聚类簇的中心点与所述酒店登记地址的距离都大于第二预设阈值,则确定所述OTA酒店为高危虚假地址酒店,其余的可以归类为中危虚假地址酒店。另外,第二类虚假地址酒店可以标记为低危虚假地址酒店。
本实施例中,设定所述用户坐标的总数量为N,N为正整数;则所述聚类算法可以通过如下方式进行迭代运算:
选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;比较每个所述聚类簇的新中心点与前一中心点是否一致。
若不一致,则重新分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点,即对所述中心点进行迭代计算,直到中心点不再移动。
若一致,则可以确定所述用户坐标已经收敛至相应的所述聚类簇中,迭代计算结束。
具体地,本实施例中的聚类算法可以采用分割算法(例如:K-means算法)、分层次算法(例如:ROCK算法)、基于密度的算法(例如:DBSCAN算法、Mean-Shift算法)、基于网格的算法(例如:STING算法)等。本领域技术人员可以根据具体的应用场合而适应性的选择合适的聚类算法,本发明实施例对此不做限制。
具体执行聚类算法时,可以在样本空间中先选定K个中心点,然后以中心点为圆心,划定一个圆形的区域,这个圆形的区域可以被称为聚类簇,然后将用户坐标分别划分入相似度最高的所述中心点对应的所述聚类簇中,再计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点,新中心点相对于原中心点发生了移动,然后再将用户坐标划分入新中心点对应的聚类簇中,如此执行迭代计算,可以使得中心点(即圆心)一直往数据集密度最大的方向移动,经过若干次迭代计算后,中心点位置不再变化时就表示数据已经达到收敛。
本实施例提供的OTA酒店的虚假地址的检测方法通过对用户坐标进行聚类操作,并利用聚类结果进一步评估OTA酒店的地址是否为虚假地址,由此,可以进一步增强对虚假地址判断的准确性,提高了用户体验。
实施例3
本实施例提供一种OTA酒店的虚假地址的检测方法,请参考图3,所述检测方式是在实施例1基础上的进一步改进。
具体地,所述步骤S5之前还可以包括如下步骤:
步骤S6:获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;
为了提高获取的所述酒店点评数据的可用性,在获取相关数据时可以考虑如下因素:
首先,考虑到数据时效性,只选择最近半年的酒店点评数据,并且最新一次的用户入住时间必须要大于酒店地址发生变更的时间。另外,应当优先获取酒店点评分数比较低的点评内容,对于常用的1-10分的评分机制来说,可以将分数在1-5分之间的点评内容看作评分比较低的酒店点评数据。
接下来,可以对获取的酒店点评数据进行预处理,过滤一些对于分类无效的语句,主要包含如下情况:
(1)替换特殊字符,可以将纯表情符号替换为相应的文字表达。
(2)过滤纯数字。
(3)过滤不包含中文字符的语句。
(4)总结部分闲聊语句,通过编辑距离算法计算相似度进行过滤。比如“你好”之类的用语。
(5)数据格式的标准化处理,比如全角转半角、繁体转简体、大小写转化等。
接下来,可以对预处理之后的酒店点评数据进行点评文本向量化的操作,具体地,可以使用hanlp分词工具进行分词,所述分词是指将句子中的标志性词汇进行拆分。分词过程中,加入具体应用场景中的一些专业词汇,确保分词准确度比较高,然后使用预训练的词向量模型(例如:word2vec模型或者glove模型)加权计算得到所有单词的词向量,作为后续计算过程中的深度学习模型的输入。例如:对于“地址”这一标志性词汇,在三维空间进行向量化之后,可以得到代表“地址”这一分词词组的数字化向量(0.055,0.000,0.000),对于“偏离”这一标志性词汇,在三维空间进行向量化之后,可以得到代表“偏离”这一分词词组的数字化向量(1.000,0.577,2.389)。
步骤S7:以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型;
其中,地址有问题可以用0表示,地址无问题可以用1表示。
具体执行步骤S7时,对于前述多个数字化处理后的词向量,将涉及地址有问题和地址没问题的两类酒店点评数据使用BI-LSTM算法(一种神经网络算法)进行训练,捕捉点评文本的语义信息,通过softmax层(神经网络算法架构中的层)计算评估点评文本是否属于地址有问题的类型,多次迭代后得到深度学习模型。
具体的深度学习模型的迭代计算原理可以参照现有技术中已有的深度学习模型的训练原理。
本实施例中,若所述数量达到所述第一数量阈值要求,所述步骤S5可以包括:
步骤S55:将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
步骤S56:判断所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量是否达到第二数量阈值要求;
若判断结果为是,则执行步骤S57:确定所述OTA酒店在线登记的地址为虚假地址。
若判断结果为否,则可以重新执行步骤S55,从而可以实现对酒店点评数据的增量实时获取,并且利用实时获取的酒店点评数据来确定所述OTA酒店在线登记的地址是否为虚假地址,提高了算法执行的效率和准确性。
本实施例中,地址有问题的所述酒店点评数据的数量达到第二数量阈值要求可以是地址有问题的所述酒店点评数据的数量本身超过了某一数量阈值(例如:数量本身超过了1、3、20、45等),也可以是地址有问题的所述酒店点评数据的数量与所述酒店点评数据的总数量的比值超过了某一数量阈值(例如:比值超过了40%、50%、80%等),本领域技术人员可以根据具体需求而进行设置,本实施例对此不作限制。
本实施例提供的OTA酒店的虚假地址的检测方法可以利用酒店点评数据的类型以及用户聚类后的聚类簇与酒店登记地址之间的距离关系来共同预测酒店地址是否为虚假地址,从而更进一步的提高了虚假地址预测的准确度,减小了误判断的可能性。
实施例4
本实施例提供一种OTA酒店的虚假地址的检测系统,如图4所示,所述检测系统1可以包括:
用户坐标获取模块10,用于获取用户入住所述OTA酒店期间的用户坐标。
本实施例中,所述用户坐标也可以被称为打点坐标,每个所述用户坐标以经度和纬度来限定,例如:用户坐标A(纬度为22.6度,经度为114度)在采集用户坐标时,考虑到用户白天可能会不断的移动,这样的用户坐标数据不能真实反映出用户所在酒店的实际坐标。基于此,本实施例选取的是凌晨1-4点间的用户坐标信息,并且每个用户都选取该时间段内的任意2个坐标,如此操作不但可以增加评估的准确性,而且还可以防止数据过于倾斜。
接下来,需要对采集完成的用户坐标进行预处理,即动态点去除。具体地,对于每个用户来说,如果2个坐标点之间的距离大于第一距离(例如:1km),就认为这是一个动态点,动态点不能真实反映用户所入住酒店的地址,因而将该用户坐标进行过滤去除。另外,如果一家酒店的用户坐标数据不超过十个点,则认为数据不具备代表性,也进行过滤去除。如果用户坐标与待检测酒店的距离大于第二距离(例如:10km),由于实际不可能存在此种情况,则可以认为系统在检测时将入住总店的用户错误的与分店进行匹配,在此种情况的用户坐标也进行过滤去除。
所述检测系统还包括距离计算模块11,用于计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
统计模块12,用于统计所述距离超过第一预设阈值的所述用户坐标的数量;
优选地,所述第一预设阈值可以设置为400米。
判断模块13,用于判断所述数量是否达到第一数量阈值要求;
所述数量达到第一数量阈值要求可以是所述数量本身超过了某一数量阈值(例如:数量超过了10、20、60),也可以是所述数量与用户坐标总数量的比值超过了某一数量阈值(例如:比值超过了50%、60%、80%),本领域技术人员可以根据具体需求而进行设置,本实施例对此不作限制。
若所述数量达到所述第一数量阈值要求,则调用虚假地址确认模块14,所述虚假地址确认模块14用于确定所述OTA酒店在线登记的地址为虚假地址。
若所述数量未达到所述第一数量阈值要求,则可以调用用户坐标获取模块10,从而可以实现对所述OTA酒店在线登记地址的实时监控。
本实施例提供的OTA酒店的虚假地址的检测系统在运行时,通过获取用户入住所述OTA酒店后的用户坐标,然后计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离,接下来根据用户坐标与OTA酒店在线登记的地址坐标之间的距离,以及所述距离超过第一预设阈值的所述用户坐标的数量来检测具有虚假地址的OTA酒店,不仅节省了人工询问的人力资源成本,而且还可以有效提升用户体验,避免用户损失,同时,对于提升酒店品牌的影响力起到了重要推动作用。
实施例5
本实施例提供一种OTA酒店的虚假地址的检测系统,如图5所示,所述检测系统是在实施例4基础上的进一步改进。
具体地,所述虚假地址确认模块14包括聚类子模块141以及确认执行子模块142:
若所述数量达到所述第一数量阈值要求,则所述聚类子模块141用于对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离超过第二预设阈值,则所述确认执行子模块142用于确定所述OTA酒店为第一类虚假地址酒店;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离不超过所述第二预设阈值,则所述确认执行子模块142还用于确定所述OTA酒店为第二类虚假地址酒店。
其中,第一类虚假地址酒店可以分类标记为高危虚假地址酒店以及中危虚假地址酒店,具体地,若多个聚类簇的中心点与所述酒店登记地址的距离都大于第二预设阈值,则确定所述OTA酒店为高危虚假地址酒店,其余的可以归类为中危虚假地址酒店。另外,第二类虚假地址酒店可以标记为低危虚假地址酒店。
进一步地,所述用户坐标的总数量为N,N为正整数;
所述聚类子模块141用于选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;比较每个所述聚类簇的新中心点与前一中心点是否一致;
若不一致,则所述聚类子模块141还用于重新执行分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点的步骤。
若一致,则所述确认执行子模块142可以确定所述用户坐标已经收敛至相应的所述聚类簇中,迭代计算结束。
具体地,本实施例中的聚类算法可以采用分割算法(例如:K-means算法)、分层次算法(例如:ROCK算法)、基于密度的算法(例如:DBSCAN算法、Mean-Shift算法)、基于网格的算法(例如:STING算法)等。本领域技术人员可以根据具体的应用场合而适应性的选择合适的聚类算法,本发明实施例对此不做限制。
具体执行聚类算法时,可以在样本空间中先选定K个中心点,然后以中心点为圆心,划定一个圆形的区域,这个圆形的区域可以被称为聚类簇,然后将用户坐标分别划分入相似度最高的所述中心点对应的所述聚类簇中,再计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点,新中心点相对于原中心点发生了移动,然后再将用户坐标划分入新中心点对应的聚类簇中,如此执行迭代计算,可以使得中心点(即圆心)一直往数据集密度最大的方向移动,经过若干次迭代计算后,中心点位置不再变化时就表示数据已经达到收敛。
本实施例提供的OTA酒店的虚假地址的检测系统在运行时,通过对用户坐标进行聚类操作,并利用聚类结果进一步评估OTA酒店的地址是否为虚假地址,由此,可以进一步增强对虚假地址判断的准确性,提高了用户体验。
实施例6
本实施例提供一种OTA酒店的虚假地址的检测系统,如图6所示,所述检测系统是在实施例4基础上的进一步改进。
具体地,所述检测系统1还包括:
酒店点评获取模块15,用于获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;
为了提高获取的所述酒店点评数据的可用性,在获取相关数据时可以考虑如下因素:
首先,考虑到数据时效性,只选择最近半年的酒店点评数据,并且最新一次的用户入住时间必须要大于酒店地址发生变更的时间。另外,应当优先获取酒店点评分数比较低的点评内容,对于常用的1-10分的评分机制来说,可以将分数在1-5分之间的点评内容看作评分比较低的酒店点评数据。
接下来,可以对获取的酒店点评数据进行预处理,过滤一些对于分类无效的语句,主要包含如下情况:
(1)替换特殊字符,可以将纯表情符号替换为相应的文字表达。
(2)过滤纯数字。
(3)过滤不包含中文字符的语句。
(4)总结部分闲聊语句,通过编辑距离算法计算相似度进行过滤。比如“你好”之类的用语。
(5)数据格式的标准化处理,比如全角转半角、繁体转简体、大小写转化等。
接下来,可以对预处理之后的酒店点评数据进行点评文本向量化的操作,具体地,可以使用hanlp分词工具进行分词,所述分词是指将句子中的标志性词汇进行拆分。分词过程中,加入具体应用场景中的一些专业词汇,确保分词准确度比较高,然后使用预训练的词向量模型(例如:word2vec模型或者glove模型)加权计算得到所有单词的词向量,作为后续计算过程中的深度学习模型的输入。例如:对于“地址”这一标志性词汇,在三维空间进行向量化之后,可以得到代表“地址”这一分词词组的数字化向量(0.055,0.000,0.000),对于“偏离”这一标志性词汇,在三维空间进行向量化之后,可以得到代表“偏离”这一分词词组的数字化向量(1.000,0.577,2.389)。
训练模块16,用于以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型。
其中,地址有问题可以用0表示,地址无问题可以用1表示。
所述训练模型在运行时,对于前述多个数字化处理后的词向量,将涉及地址有问题和地址没问题的两类酒店点评数据使用BI-LSTM算法(一种神经网络算法)进行训练,捕捉点评文本的语义信息,通过softmax层(神经网络算法架构中的层)计算评估点评文本是否属于地址有问题的类型,多次迭代后得到深度学习模型。
具体的深度学习模型的迭代计算原理可以参照现有技术中已有的深度学习模型的训练原理。
若所述数量达到所述第一数量阈值要求,则所述虚假地址确认模块14用于将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量达到第二数量阈值要求,则所述虚假地址确认模块14确定所述OTA酒店在线登记的地址为虚假地址。
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量未达到第二数量阈值要求,则可以调用酒店点评获取模块15,从而可以实现对酒店点评数据的增量实时获取,并且利用实时获取的酒店点评数据来确定所述OTA酒店在线登记的地址是否为虚假地址,提高了算法执行的效率和准确性。
本实施例中,地址有问题的所述酒店点评数据的数量达到第二数量阈值要求可以是地址有问题的所述酒店点评数据的数量本身超过了某一数量阈值(例如:数量本身超过了1、3、20、45等),也可以是地址有问题的所述酒店点评数据的数量与所述酒店点评数据的总数量的比值超过了某一数量阈值(例如:比值超过了40%、50%、80%等),本领域技术人员可以根据具体需求而进行设置,本实施例对此不作限制。
本实施例提供的OTA酒店的虚假地址的检测系统在运行时,可以利用酒店点评数据的类型以及用户聚类后的聚类簇与酒店登记地址之间的距离关系来共同预测酒店地址是否为虚假地址,从而更进一步的提高了虚假地址预测的准确度,减小了误判断的可能性。
实施例7
本发明还提供一种电子设备,如图7所示,所述电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述实施例1-3中任一实施例的OTA酒店的虚假地址的检测方法的步骤。
可以理解的是,图7所示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备2可以以通用计算设备的形式表现,例如:其可以为服务器设备。电子设备2的组件可以包括但不限于:上述至少一个处理器3、上述至少一个存储器4、连接不同系统组件(包括存储器4和处理器3)的总线5。
所述总线5可以包括数据总线、地址总线和控制总线。
所述存储器4可以包括易失性存储器,例如随机存取存储器(RAM)41和/或高速缓存存储器42,还可以进一步包括只读存储器(ROM)43。
所述存储器4还可以包括具有一组(至少一个)程序模块44的程序工具45(或实用工具),这样的程序模块44包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
所述处理器3通过运行存储在所述存储器4中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1-3中任一实施例的OTA酒店的虚假地址的检测方法的步骤。
所述电子设备2也可以与一个或多个外部设备6(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口7进行。并且,模型生成的电子设备2还可以通过网络适配器8与一个或者多个网络(例如局域网LAN,广域网WAN和/或公共网络)通信。
如图7所示,网络适配器8可以通过总线5与模型生成的电子设备2的其它模块通信。本领域技术人员应当明白,尽管图中未示出,可以结合模型生成的电子设备2使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
需要说明的是,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1-3中任一实施例的OTA酒店的虚假地址的检测方法的步骤。
其中,计算机可读存储介质可以采用的更具体方式可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1-3中任一实施例的OTA酒店的虚假地址的检测方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种OTA酒店的虚假地址的检测方法,其特征在于,所述检测方法包括:
获取用户入住所述OTA酒店期间的用户坐标;
计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
统计所述距离超过第一预设阈值的所述用户坐标的数量;
判断所述数量是否达到第一数量阈值要求;
若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址。
2.如权利要求1所述的OTA酒店的虚假地址的检测方法,其特征在于,
若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址的步骤包括:
若所述数量达到所述第一数量阈值要求,则对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离超过第二预设阈值,则确定所述OTA酒店为第一类虚假地址酒店;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离不超过所述第二预设阈值,则确定所述OTA酒店为第二类虚假地址酒店。
3.如权利要求2所述的OTA酒店的虚假地址的检测方法,其特征在于,
所述用户坐标的总数量为N,N为正整数;对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇的步骤包括:
选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;
分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;
分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;
分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;
比较每个所述聚类簇的新中心点与前一中心点是否一致;
若不一致,则重新执行分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点的步骤。
4.如权利要求1所述的OTA酒店的虚假地址的检测方法,其特征在于,
所述确定所述OTA酒店在线登记的地址为虚假地址的步骤之前还包括:获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型;
若所述数量达到所述第一数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址的步骤包括:
若所述数量达到所述第一数量阈值要求,则将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量达到第二数量阈值要求,则确定所述OTA酒店在线登记的地址为虚假地址。
5.一种OTA酒店的虚假地址的检测系统,其特征在于,所述检测系统包括:
用户坐标获取模块,用于获取用户入住所述OTA酒店期间的用户坐标;
距离计算模块,用于计算所述用户坐标与所述OTA酒店在线登记的地址坐标之间的距离;
统计模块,用于统计所述距离超过第一预设阈值的所述用户坐标的数量;
判断模块,用于判断所述数量是否达到第一数量阈值要求;
若所述数量达到所述第一数量阈值要求,则调用虚假地址确认模块,所述虚假地址确认模块用于确定所述OTA酒店在线登记的地址为虚假地址。
6.如权利要求5所述的OTA酒店的虚假地址的检测系统,其特征在于,
所述虚假地址确认模块包括聚类子模块以及确认执行子模块:
若所述数量达到所述第一数量阈值要求,则所述聚类子模块用于对所述用户坐标进行聚类,以得到所述OTA酒店对应的多个聚类簇,每个所述聚类簇包括一个中心点以及与所述中心点对应的聚类点数;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离超过第二预设阈值,则所述确认执行子模块用于确定所述OTA酒店为第一类虚假地址酒店;
若具有最多的聚类点数的所述聚类簇的所述中心点与所述OTA酒店在线登记的地址坐标的距离不超过所述第二预设阈值,则所述确认执行子模块还用于确定所述OTA酒店为第二类虚假地址酒店。
7.如权利要求6所述的OTA酒店的虚假地址的检测系统,其特征在于,
所述用户坐标的总数量为N,N为正整数;
所述聚类子模块用于选取K个所述用户坐标作为中心点,其中,每个所述中心点均对应一个所述聚类簇,K为小于N的正整数;分别比较每个所述用户坐标与K个所述中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述中心点对应的所述聚类簇中;分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点;分别比较每个所述用户坐标与所述新中心点的相似度,并将每个所述用户坐标划分入相似度最高的所述新中心点对应的所述聚类簇中;比较每个所述聚类簇的新中心点与前一中心点是否一致;
若不一致,则所述聚类子模块还用于重新执行分别计算每个所述聚类簇中的所述用户坐标的平均值,并以所述平均值作为所述聚类簇的新中心点的步骤。
8.如权利要求5所述的OTA酒店的虚假地址的检测系统,其特征在于,
所述检测系统还包括:
酒店点评获取模块,用于获取所述OTA酒店的酒店点评数据,所述酒店点评数据包括地址有问题点评以及地址无问题点评;
训练模块,用于以所述酒店点评数据为深度学习模型的输入,以地址有问题以及地址无问题作为所述深度学习模型的输出,对所述深度学习模型进行训练,以得到酒店点评数据测试模型;
若所述数量达到所述第一数量阈值要求,则所述虚假地址确认模块用于将所述OTA酒店对应的酒店点评数据输入所述酒店点评数据测试模型,以得到所述OTA酒店对应的酒店点评数据测试结果;
若所述酒店点评数据测试结果中地址有问题的所述酒店点评数据的数量达到第二数量阈值要求,则所述虚假地址确认模块确定所述OTA酒店在线登记的地址为虚假地址。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-4任一项所述的OTA酒店的虚假地址的检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的OTA酒店的虚假地址的检测方法的步骤。
CN201910850396.1A 2019-09-10 2019-09-10 Ota酒店的虚假地址的检测方法、系统、介质及设备 Active CN110599200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910850396.1A CN110599200B (zh) 2019-09-10 2019-09-10 Ota酒店的虚假地址的检测方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910850396.1A CN110599200B (zh) 2019-09-10 2019-09-10 Ota酒店的虚假地址的检测方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN110599200A true CN110599200A (zh) 2019-12-20
CN110599200B CN110599200B (zh) 2022-11-01

Family

ID=68858312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910850396.1A Active CN110599200B (zh) 2019-09-10 2019-09-10 Ota酒店的虚假地址的检测方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN110599200B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445271A (zh) * 2020-03-31 2020-07-24 携程计算机技术(上海)有限公司 模型生成方法、作弊酒店的预测方法、系统、设备和介质
CN111506694A (zh) * 2020-04-21 2020-08-07 携程计算机技术(上海)有限公司 海景酒店的判定方法、系统、电子设备和存储介质
CN111966774A (zh) * 2020-08-18 2020-11-20 湖南省长株潭烟草物流有限责任公司 烟包零售户的动态定位方法及系统
CN112131382A (zh) * 2020-08-20 2020-12-25 彭涛 民生问题高发地的识别方法、装置及电子设备
CN114331592A (zh) * 2021-12-10 2022-04-12 北京互金新融科技有限公司 识别恶意刷单行为的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012201009A1 (en) * 2005-06-28 2012-03-08 Media Cart Holdings, Inc. Media enabled advertising shopping cart system
CN103049853A (zh) * 2012-12-19 2013-04-17 胡绍珠 店铺真伪识别装置及验证方法
CN103679469A (zh) * 2012-09-26 2014-03-26 情报通信产业振兴院 用于酒类伪造防止服务的系统
US20160070709A1 (en) * 2014-09-09 2016-03-10 Stc.Unm Online review assessment using multiple sources
WO2016197854A1 (zh) * 2015-06-09 2016-12-15 阿里巴巴集团控股有限公司 业务对象信息处理、凭证信息处理方法及装置
WO2017003061A1 (ko) * 2015-06-30 2017-01-05 주식회사 디지워크 상품 매장 진위 여부 판단 방법 및 이를 실행하는 단말 장치
CN107066478A (zh) * 2016-12-14 2017-08-18 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置
CN108399546A (zh) * 2017-02-06 2018-08-14 百度在线网络技术(北京)有限公司 识别虚假定位的方法、装置、设备及存储介质
CN208547982U (zh) * 2018-06-19 2019-02-26 成都卓越纵联科技有限公司 一种民宿智能无人实名认证系统
CN109685527A (zh) * 2018-12-14 2019-04-26 拉扎斯网络科技(上海)有限公司 检测商户虚假交易的方法、装置、系统及计算机存储介质
CN109978075A (zh) * 2019-04-04 2019-07-05 江苏满运软件科技有限公司 车辆虚假位置信息识别方法、装置、电子设备、存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012201009A1 (en) * 2005-06-28 2012-03-08 Media Cart Holdings, Inc. Media enabled advertising shopping cart system
CN103679469A (zh) * 2012-09-26 2014-03-26 情报通信产业振兴院 用于酒类伪造防止服务的系统
CN103049853A (zh) * 2012-12-19 2013-04-17 胡绍珠 店铺真伪识别装置及验证方法
US20160070709A1 (en) * 2014-09-09 2016-03-10 Stc.Unm Online review assessment using multiple sources
WO2016197854A1 (zh) * 2015-06-09 2016-12-15 阿里巴巴集团控股有限公司 业务对象信息处理、凭证信息处理方法及装置
CN106296329A (zh) * 2015-06-09 2017-01-04 阿里巴巴集团控股有限公司 业务对象信息处理、凭证信息处理方法及装置
WO2017003061A1 (ko) * 2015-06-30 2017-01-05 주식회사 디지워크 상품 매장 진위 여부 판단 방법 및 이를 실행하는 단말 장치
CN107066478A (zh) * 2016-12-14 2017-08-18 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置
CN108399546A (zh) * 2017-02-06 2018-08-14 百度在线网络技术(北京)有限公司 识别虚假定位的方法、装置、设备及存储介质
CN208547982U (zh) * 2018-06-19 2019-02-26 成都卓越纵联科技有限公司 一种民宿智能无人实名认证系统
CN109685527A (zh) * 2018-12-14 2019-04-26 拉扎斯网络科技(上海)有限公司 检测商户虚假交易的方法、装置、系统及计算机存储介质
CN109978075A (zh) * 2019-04-04 2019-07-05 江苏满运软件科技有限公司 车辆虚假位置信息识别方法、装置、电子设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘琛: "基于行为分析的社交网络异常账号的检测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
谭文斌: "基于电商平台的产品评论大数据获取及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445271A (zh) * 2020-03-31 2020-07-24 携程计算机技术(上海)有限公司 模型生成方法、作弊酒店的预测方法、系统、设备和介质
CN111506694A (zh) * 2020-04-21 2020-08-07 携程计算机技术(上海)有限公司 海景酒店的判定方法、系统、电子设备和存储介质
CN111506694B (zh) * 2020-04-21 2023-05-02 携程计算机技术(上海)有限公司 海景酒店的判定方法、系统、电子设备和存储介质
CN111966774A (zh) * 2020-08-18 2020-11-20 湖南省长株潭烟草物流有限责任公司 烟包零售户的动态定位方法及系统
CN112131382A (zh) * 2020-08-20 2020-12-25 彭涛 民生问题高发地的识别方法、装置及电子设备
CN112131382B (zh) * 2020-08-20 2024-05-10 彭涛 民生问题高发地的识别方法、装置及电子设备
CN114331592A (zh) * 2021-12-10 2022-04-12 北京互金新融科技有限公司 识别恶意刷单行为的方法

Also Published As

Publication number Publication date
CN110599200B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110599200B (zh) Ota酒店的虚假地址的检测方法、系统、介质及设备
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
CN110413788B (zh) 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110347840B (zh) 投诉文本类别的预测方法、系统、设备和存储介质
CN108345587B (zh) 一种评论的真实性检测方法与系统
CN110781294A (zh) 训练语料库细化和增量更新
CN108491528B (zh) 一种图像检索方法、系统及装置
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN111125317A (zh) 对话型文本分类的模型训练、分类、系统、设备和介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US11741511B2 (en) Systems and methods of business categorization and service recommendation
CN111242387A (zh) 一种人才离职预测方法、装置、电子设备及存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN112087316B (zh) 基于异常数据分析的网络异常根源定位方法
CN111767476A (zh) 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN111126629B (zh) 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN114139636B (zh) 异常作业处理方法及装置
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN110910905B (zh) 静音点检测方法及装置、存储介质、电子设备
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN113032514B (zh) 兴趣点数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant