CN111325638A - 酒店识别处理方法、装置、设备及存储介质 - Google Patents
酒店识别处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111325638A CN111325638A CN202010084428.4A CN202010084428A CN111325638A CN 111325638 A CN111325638 A CN 111325638A CN 202010084428 A CN202010084428 A CN 202010084428A CN 111325638 A CN111325638 A CN 111325638A
- Authority
- CN
- China
- Prior art keywords
- data
- hotel
- pieces
- similarity
- hotel data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
Abstract
本申请公开了一种酒店识别处理方法、装置、设备及存储介质,方法包括:获取至少两条酒店数据;根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源。
Description
技术领域
本申请涉及酒店数据管理技术领域,尤其是一种酒店识别处理方法、装置、设备及存储介质。
背景技术
线上旅游服务平台可以获取来自不同在线旅游社(Online Travel Agency,OTA)的酒店数据,并将酒店数据对应的酒店进行统一销售。线上旅游服务平台在获取多个不同OTA提供的多个酒店数据时,需要识别并筛选出属于同一酒店的所有酒店数据,以便于将统一酒店的所有酒店数据在同一页面中显示,避免用户错订酒店。
相关技术中,通过人工审核或者算法模型与人工审核相结合的方式来识别并筛选出属于同一酒店的所有OTA酒店数据。然而,人工审核的效率较低,而且容易产生误差;算法模型根据OTA提供的各酒店数据的文本信息对酒店资源进行识别,不够准确,而且不同的OTA提供的同一酒店的酒店数据的文本信息的内容和形式不同,导致同一个算法模型无法兼容多个OTA提供的酒店数据,需要针对不同的OTA开发不同的算法模型,增加模型开发成本。
发明内容
本申请实施例提供一种酒店识别处理方法、装置、设备及存储介质,用于解决现有酒店识别处理方法效率低、准确度差、人力资源成本和模型开发成本高的问题。
第一方面,本申请提供了一种酒店识别处理方法,该方法包括:
获取至少两条酒店数据;
根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;
根据所述每一条酒店数据对应的文本特征和图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;
根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,并将对应同一酒店的所述酒店数据合并后显示。
进一步地,所述酒店数据包括文本数据和图像数据,所述根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征,包括:
根据所述至少两条酒店数据,获取所述至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;
对所述每一条酒店数据中的文本数据和图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
进一步地,所述文本数据包括名称数据、地址数据和经纬度数据,所述文本特征包括名称特征、类型特征和地址特征,对所述每一条酒店数据中的文本数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征,包括:
根据所述每一条酒店数据中的文本数据,获取所述每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;
对所述名称数据进行第一分词处理,得到第一地址特征;根据所述地址数据,确定第二地址特征;根据所述经纬度数据,确定第三地址特征;对所述第一地址特征、第二地址特征和第三地址特征进行特征合并,得到所述至少两条酒店数据中的每一条酒店数据对应的地址特征;
对所述名称数据进行第二分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的类型特征;
对所述名称数据进行第三分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的名称特征。
进一步地,根据所述每一条酒店数据对应的文本特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度,包括:
根据所述每一条酒店数据对应的地址特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;
根据所述每一条酒店数据对应的类型特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;
根据所述每一条酒店数据对应的名称特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;
按照第一预设规则对所述第三相似度、第四相似度和第五相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
进一步地,所述图像数据包括图像内容数据和图像质量数据,所述图像特征包括图像内容特征和图像质量特征,对所述每一条酒店数据中的图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的图像特征,包括:
根据所述每一条酒店数据中的图像数据,获取所述每一条酒店数据中的图像数据的图像内容数据和图像质量数据;
根据所述图像内容数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像内容特征;
根据所述图像质量数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
进一步地,根据所述每一条酒店数据对应的图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度,包括:
根据所述每一条酒店数据对应的图像内容特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;
根据所述每一条酒店数据对应的图像质量特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;
按照第二预设规则对所述第六相似度和第七相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
进一步地,根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,包括:
根据所述第一相似度和所述第二相似度,确定所述任意两条酒店数据对应同一酒店的概率值Psame和所述任意两条酒店数据对应不同酒店的概率值Pdiff;
根据所述Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diffif(Pdiff/Psame≥5)
result=unknown if(other)
当所述Psame至少是所述Pdiff的20倍时,判定所述任意两条酒店数据对应同一酒店;当所述Pdiff至少是所述Psame的5倍时,判定所述任意两条酒店数据对应不同酒店;否则,转人工判定。
进一步地,所述至少两条酒店数据来源于不同的数据平台。
进一步地,从来源于所有数据平台的所有酒店数据中获取所述至少两条酒店数据,所述获取至少两条酒店数据包括:
根据所述来源于所有数据平台的所有酒店数据,建立所述所有酒店数据的索引数据;
根据所述索引数据,按照预设的索引条件,从所述所有酒店数据中获取所述至少两条酒店数据。
第二方面,本申请一种酒店识别处理装置,该装置包括:
获取单元,用于获取至少两条酒店数据;
第一处理单元,用于根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;
第二处理单元,用于根据所述每一条酒店数据对应的文本特征和图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;
第三处理单元,用于根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,并将对应同一酒店的所述酒店数据合并后显示。
进一步地,所述酒店数据包括文本数据和图像数据,所述第一处理单元,包括:
第一处理子单元,用于根据所述至少两条酒店数据,获取所述至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;
第二处理子单元,用于对所述每一条酒店数据中的文本数据和图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
进一步地,所述文本数据包括名称数据、地址数据和经纬度数据,所述文本特征包括名称特征、类型特征和地址特征,所述第二处理子单元,包括:
第一处理模块,用于根据所述每一条酒店数据中的文本数据,获取所述每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;
第二处理模块,用于对所述名称数据进行第一分词处理,得到第一地址特征;根据所述地址数据,确定第二地址特征;根据所述经纬度数据,确定第三地址特征;对所述第一地址特征、第二地址特征和第三地址特征进行特征合并,得到所述至少两条酒店数据中的每一条酒店数据对应的地址特征;
第三处理模块,用于对所述名称数据进行第二分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的类型特征;
第四处理模块,用于对所述名称数据进行第三分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的名称特征。
进一步地,所述第二处理单元,包括:
第三处理子单元,用于根据所述每一条酒店数据对应的地址特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;
第四处理子单元,用于根据所述每一条酒店数据对应的类型特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;
第五处理子单元,用于根据所述每一条酒店数据对应的名称特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;
第六处理子单元,用于按照第一预设规则对所述第三相似度、第四相似度和第五相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
进一步地,所述图像数据包括图像内容数据和图像质量数据,所述图像特征包括图像内容特征和图像质量特征,所述第二处理子单元,还包括:
第五处理模块,用于根据所述每一条酒店数据中的图像数据,获取所述每一条酒店数据中的图像数据的图像内容数据和图像质量数据;
第六处理模块,用于根据所述图像内容数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像内容特征;
第七处理模块,用于根据所述图像质量数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
进一步地,所述第二处理单元,还包括:
第七处理子单元,用于根据所述每一条酒店数据对应的图像内容特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;
第八处理子单元,用于根据所述每一条酒店数据对应的图像质量特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;
第九处理子单元,用于按照第二预设规则对所述第六相似度和第七相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
进一步地,所述第三处理单元,包括:
第十处理子单元,用于根据所述第一相似度和所述第二相似度,确定所述任意两条酒店数据对应同一酒店的概率值Psame和所述任意两条酒店数据对应不同酒店的概率值Pdiff;
第十一处理子单元,用于根据所述Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diffif(Pdiff/Psame≥5)
result=unknownif(other)
当所述Psame至少是所述Pdiff的20倍时,判定所述任意两条酒店数据对应同一酒店;当所述Pdiff至少是所述Psame的5倍时,判定所述任意两条酒店数据对应不同酒店;否则,转人工判定。
进一步地,所述至少两条酒店数据来源于不同的数据平台。
进一步地,从来源于所有数据平台的所有酒店数据中获取所述至少两条酒店数据,所述获取单元包括:
第十二处理子单元,用于根据所述来源于所有数据平台的所有酒店数据,建立所述所有酒店数据的索引数据;
第十三处理子单元,用于根据所述索引数据,按照预设的索引条件,从所述所有酒店数据中获取所述至少两条酒店数据。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请中,通过获取至少两条酒店数据;根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种酒店识别处理方法的流程示意图;
图1a是本申请实施例提供的线上旅游服务系统与其他旅游平台的连接关系示意图;
图2是本申请实施例提供的又一种酒店识别处理方法的流程示意图;
图3是本申请实施例提供的一种酒店识别处理装置的结构示意图;
图4是本申请实施例提供的又一种酒店识别处理装置的结构示意图;
图5是本申请实施例提供的一种酒店识别处理设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请涉及的名词解释:
线上旅游服务系统:利用互联网为用户提供旅游目的地的交通、酒店、景点、餐饮、购物、当地玩乐等信息内容和产品预订服务的网络服务系统。
在线旅行社(OTA):一种旅游平台,通过该旅游平台,旅游消费者可以通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,各旅游主体可以通过网络进行产品营销或产品销售。
酒店数据:由各旅游平台提供的、用于描述某一酒店的相关数据,例如可以是酒店名称、文字介绍、联系方式、位置或者外观图片。
本申请的应用场景:线上旅游服务平台可以获取来自不同在线旅游社(OnlineTravel Agency,OTA)的酒店数据,并将酒店数据对应的酒店进行统一销售。线上旅游服务平台在获取多个不同OTA提供的多个酒店数据时,需要识别并筛选出属于同一酒店的所有酒店数据,以便于将统一酒店的所有酒店数据在同一页面中显示,避免用户错订酒店。
相关技术中,通过人工审核或者算法模型与人工审核相结合的方式来识别并筛选出属于同一酒店的所有OTA酒店数据。然而,人工审核的效率较低,而且容易产生误差;算法模型根据OTA提供的各酒店数据的文本信息对酒店资源进行识别,不够准确,而且不同的OTA提供的同一酒店的酒店数据的文本信息的内容和形式不同,导致同一个算法模型无法兼容多个OTA提供的酒店数据,需要针对不同的OTA开发不同的算法模型,增加模型开发成本。
本申请提供的酒店识别处理方法、装置、设备及存储介质,旨在解决上述技术问题。
图1为本申请实施例提供的一种酒店识别处理方法,如图1所示,该方法包括:
步骤101、获取至少两条酒店数据。
在本实施例中,具体地,本实施例的执行主体为终端设备、或者控制器、服务器,或者其他可以执行本实施例的装置或设备。本实施例以执行主体为服务器进行说明。
本实施例的方法可以用于线上旅游服务系统,特别适用于线上旅游服务系统中的酒店识别处理。图1a是本实施例提供的线上旅游服务系统与其他旅游平台的连接关系示意图,如图1所示,线上旅游服务系统可以与多个其他旅游平台对应连接,并从多个其他旅游平台获得多条酒店数据。对于同一酒店来说,其相关的酒店数据可能会记录在多个不同的旅游平台上,但是不同的旅游平台对该酒店相关的酒店数据的记录形式可能会各不相同,因此,线上旅游服务系统从多个其他旅游平台获得的多条酒店数据中可能有不止一条酒店数据对应同一酒店,为了方便用户辨识不同的酒店数据,需要将对应同一酒店的所有酒店数据识别出来并进行统一显示。本实施例的方法用于将线上旅游服务系统从多个其他旅游平台获得的多条酒店数据中对应同一酒店的所有酒店数据识别出来。其中,本实施例所说的其他旅游平台可以是能通过互联网提供酒店数据的任何网络平台,例如可以是在线旅行社(OTA);本实施例所说的酒店数据可以是能用于酒店识别的所有酒店信息数据,例如可以是酒店POI信息。
步骤102、根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
在本实施例中,具体地,酒店数据包括文本数据和图像数据,根据步骤101中获取的至少两条酒店数据中每一条酒店数据对应的文本数据和图像数据,确定上述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。其中,文本特征包括对相应的酒店起标识作用的一类文本数据,图像特征包括对相应的酒店起标识作用的一类图像数据。可以通过对步骤101中获取的至少两条酒店数据中每一条酒店数据对应的文本数据和图像数据分别进行数据筛选,以得到每一条酒店数据对应的文本特征和图像特征。
步骤103、根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度。
在本实施例中,具体地,在获取到每一条酒店数据对应的文本特征和图像特征之后,根据每一条酒店数据对应的文本特征,确定任意两条酒店数据对应的文本特征的第一相似度;根据每一条酒店数据对应的图像特征,确定任意两条酒店数据对应的图像特征的第二相似度。其中,第一相似度用于表示任意两条酒店数据对应的文本特征的相似程度,第一相似度的确定方法可以是本领域常规的,例如,可以将任意两条酒店数据对应的文本特征转化为可以运算的数值向量,两个数值向量之间的距离即为任意两条酒店数据对应的文本特征的第一相似度。第二相似度用于表示任意两条酒店数据对应的图像特征的相似程度,第二相似度的确定方法可以是本领域常规的,例如可以通过图像分块查找算法确定任意两条酒店数据对应的图像特征的第二相似度。
步骤104、根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店,并将对应同一酒店的酒店数据合并后显示。
在本实施例中,具体地,根据任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店。其中,根据第一相似度和第二相似度判断任意两条酒店数据是否对应同一酒店的方法可以是本领域内常规的,例如,可以在第一相似度和第二相似度分别达到预设相似度时,判定该任意两条酒店数据对应同一酒店。将对应同一酒店的酒店数据进行合并的方法,以及将合并后的酒店数据进行显示的方法,均可以是本领域内常规的,本实施例在此不再赘述。
本实施例中,通过获取至少两条酒店数据;根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源。
图2为本申请实施例提供的另一种酒店识别处理方法的流程示意图,如图2所示,该方法包括:
步骤201、获取至少两条酒店数据,并根据至少两条酒店数据,获取至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据。
在本实施例中,具体地,酒店数据可以来源于不同的数据平台,并且,酒店数据包括文本数据和图像数据;获取至少两条酒店数据,可以是从来源于所有数据平台的所有酒店数据中获取上述至少两条酒店数据;根据上述获取到的至少两条酒店数据,获取上述至少两条酒店数据中每一条酒店数据中的文本数据和图像数据,其中,文本数据表示酒店数据中以文本形式表达的数据,图像数据表示酒店数据中以图像形式表达的数据。
从来源于所有数据平台的所有酒店数据中获取至少两条酒店数据,包括:根据来源于所有数据平台的所有酒店数据,建立所有酒店数据的索引数据;根据索引数据,按照预设的索引条件,从所有酒店数据中获取至少两条酒店数据。其中,建立所有酒店数据的索引数据的方法可以是本领域常规的,例如可以将来源于所有数据平台的所有酒店数据输入Elastic Search搜索服务器,由Elastic Search搜索服务器根据输入的所有酒店数据建立一个ES索引。预设的索引条件可以根据搜索目的来进行设定,可以是一个关键字、多个关键字的组合或者一条完整的酒店数据。
示例性地,本实施例所说的酒店数据可以是酒店POI信息,数据平台可以是OTA,利用本实施例的上述方法,为所有OTA提供的所有酒店POI信息建立一个ES索引,当从OTA接收到新的酒店POI信息后,将该新的酒店POI信息作为索引条件在ES中进行模糊检索,筛选出与该新的酒店POI信息最相关的100条酒店POI信息,该新的酒店POI信息和筛选出的100条酒店POI信息即相当于本实施例中所说的至少两条酒店数据。
步骤202、对每一条酒店数据中的文本数据和图像数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
在本实施例中,具体地,文本数据包括名称数据、地址数据和经纬度数据,文本特征包括名称特征、类型特征和地址特征,图像数据包括图像内容数据和图像质量数据,图像特征包括图像内容特征和图像质量特征。
对每一条酒店数据中的文本数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的文本特征,包括:根据每一条酒店数据中的文本数据,获取每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;对名称数据进行第一分词处理,得到第一地址特征;根据地址数据,确定第二地址特征;根据经纬度数据,确定第三地址特征;对第一地址特征、第二地址特征和第三地址特征进行特征合并,得到至少两条酒店数据中的每一条酒店数据对应的地址特征;对名称数据进行第二分词处理,得到至少两条酒店数据中的每一条酒店数据对应的类型特征;对名称数据进行第三分词处理,得到至少两条酒店数据中的每一条酒店数据对应的名称特征。
其中,上述方法中所说的名称数据是指文本数据中用于表示酒店名称的一类数据,例如全季酒店(中央大街店)、全季酒店、全季酒店(防洪纪念塔店)、中央大街全季酒店等都属于不同酒店数据中的文本数据中的名称数据;地址数据是指文本数据中用于表示酒店地址的一类数据,例如哈尔滨中央大街西九道街、哈尔滨中央大街西头道街、黑龙江哈尔滨市道里区西头道街19号等都属于不同酒店数据中的文本数据中的地址数据;经纬度数据是指用于表示酒店所处城市经纬度的一类数据。
示例性地,酒店数据1-4是从4个不同的数据平台中获取到的用于描述同一家酒店的酒店数据:
酒店数据1:名称:全季酒店(中央大街店),地址:哈尔滨中央大街西九道街;
酒店数据2:名称:全季酒店,地址:哈尔滨中央大街西头道街;
酒店数据3:名称:全季酒店(防洪纪念塔店),地址:黑龙江哈尔滨市道里区西头道街19号;
酒店数据4:名称:中央大街全季酒店,地址:哈尔滨中央大街西头道街。
可以看出,上述4条酒店数据虽然描述的是同一酒店,但是,各条酒店数据对同一酒店的名称和地址的描述方式完全不同,如果仅使用酒店数据中的名称数据和地址数据分别进行对比来识别上述4条酒店数据是否对应同一酒店,并不能得到上述4条酒店数据对应同一酒店的结论,而且,上述名称数据中也同时含有地址数据,更加增加了仅利用名称数据和地址数据来识别酒店的难度,因此,需要对上述酒店数据进行特征提取,以获得能够更准确地表示同一酒店各方面信息的特征数据。
名称特征是能够准确表示酒店品牌或标识的一类数据,例如上述4条酒店数据中的“全季”;地址特征是能够准确表示酒店地址的一类数据,例如上述4条酒店数据中的“哈尔滨”、“中央大街”等;类型特征是能够准确表示酒店类型的一类数据,例如“酒店”、“大酒店”、“旅馆”、“旅社”、“民宿”“农家乐”等。
对名称数据进行第一分词处理,得到第一地址特征,包括:将名称数据与预设的地址词库进行匹配,并将名称数据中与地址词库中的某一地址名词相匹配的部分作为第一地址特征;根据地址数据确定第二地址特征的方法,根据经纬度数据确定第三地址特征的方法,均是本领域内的常规方法,本实施例不再赘述;可以按照预设的特征合并规则,对第一地址特征、第二地址特征和第三地址特征进行特征合并,得到至少两条酒店数据中的每一条酒店数据对应的地址特征,例如,可以依次按照国家、省、市、县/区、街道、道路、门牌、楼层的顺序对第一地址特征、第二地址特征和第三地址特征进行特征合并,得到地址特征。对名称数据进行第二分词处理,得到至少两条酒店数据中的每一条酒店数据对应的类型特征,包括:将名称数据与预设的酒店类型词库进行匹配,并将名称数据中与酒店类型词库中的某一酒店类型名词相匹配的部分作为类型特征。对名称数据进行第三分词处理,得到至少两条酒店数据中的每一条酒店数据对应的名称特征,包括:从名称数据中去除前述的第一地址特征和类型特征,剩余部分作为名称特征。
示例性地,对于名称数据“全季酒店(中央大街店)”,利用上述方法,对该名称数据进行第一分词处理,得到第一地址特征“中央大街”,进行第二分词处理得到类型特征“酒店”,进行第三分词处理,得到名称特征“全季”;对于地址数据“黑龙江哈尔滨市道里区西头道街19号”,对该地址数据进行特征提取,可以获得第二地址特征“黑龙江省”、“哈尔滨市”、“道里区”、“西头街道”、“19号”等;对于经纬度数据,可以利用领域内的常规方法,根据经纬度数据确定对应的省市区/县信息。
可选地,本实施例在对名称数据和地址数据进行分词处理前,还包括:将名称数据和地址数据进行数据格式处理,将名称数据和地址数据转换成便于识别的数据格式,例如,可以将繁体字转换成简体字,将数字转换成阿拉伯数字,将英文转换为小写格式,将特殊字符(比如括号、断线等)删除过滤等。
对每一条酒店数据中的图像数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的图像特征,包括:根据每一条酒店数据中的图像数据,获取每一条酒店数据中的图像数据的图像内容数据和图像质量数据;根据图像内容数据,确定至少两条酒店数据中的每一条酒店数据对应的图像内容特征;根据图像质量数据,确定至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
其中,上述方法中所说的图像内容数据是指用于表示酒店图像数据的内容的一类数据,包括酒店整体外景、酒店局部外景(阳台、门面等)、酒店内景(大堂、卧室、厨房、卫生间、健身房等)等;图像质量数据是指用于表示酒店图像数据的质量的一类数据,图像质量是指人对图像的直接感官和图像对人的吸引程度。从不同数据平台获取到的图像数据均是从酒店处采集的、能反应酒店真实情况的一些图片,因此,将图像数据加入到本实施例的酒店识别方法中,能够提高酒店识别准确度和效率。图像内容特征是能够表示图像内容数据的一类数据,例如可以是图像的像素值;图像质量特征是能够表示图像质量数据的一类数据,例如可以对图像质量数据的评分。可以根据已有的酒店图像数据,利用CNN卷积神经网络训练图像内容数据识别模型,从而从图像数据中获取图像内容数据。可以利用google开源的物体识别神经网络算法NIMA获取酒店图像数据的图像质量数据。可以获取图像各区域的像素值作为图像内容特征。可以利用经图像质量评分的图像作为训练样本,使用神经网络对训练样本进行学习,获得图像质量评分模型,并利用该图像质量评分模型对图像数据进行质量评分,将图像质量数据的评分作为本实施例的图像质量特征。
上述方法仅用作对本实施例的解释说明,并不用于限制本申请,还可采用其它方法完成本实施例的操作,本实施例在此不再赘述。
步骤203、根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度。
在本实施例中,具体地,根据每一条酒店数据对应的文本特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度;根据每一条酒店数据对应的图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。其中,文本特征包括地址特征、类型特征和名称特征,图像特征包括图像内容特征和图像质量特征。
根据每一条酒店数据对应的文本特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度,包括:根据每一条酒店数据对应的地址特征,确定至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;根据每一条酒店数据对应的类型特征,确定至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;根据每一条酒店数据对应的名称特征,确定至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;按照第一预设规则对第三相似度、第四相似度和第五相似度进行加权处理,得到至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
其中,确定第三相似度、第四相似度和第五相似度的方法可以是本领域内常规的,例如,可以分别将每一条酒店数据的地址特征、类型特征和名称特征转换成可以运算的数值向量,并将数值向量之间的距离作为本实施例中的相似度,即:将任意两条酒店数据对应的地址特征的数值向量间的距离作为第三相似度,将任意两条酒店数据对应的类型特征的数值向量间的距离作为第四相似度,将任意两条酒店数据对应的名称特征的数值向量间的距离作为第五相似度。
根据每一条酒店数据对应的图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度,包括:根据每一条酒店数据对应的图像内容特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;根据每一条酒店数据对应的图像质量特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;按照第二预设规则对第六相似度和第七相似度进行加权处理,得到至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
其中,可以使用基于图像分块查找的算法构建图像内容特征相似度识别模型,用于根据图像内容特征确定上述第六相似度;第七相似度可以是图像质量特征对应的图像质量评分的差值。
步骤204、根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店,并将对应同一酒店的酒店数据合并后显示。
在本实施例中,具体地,根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店,包括:根据第一相似度和第二相似度,确定任意两条酒店数据对应同一酒店的概率值Psame和任意两条酒店数据对应不同酒店的概率值Pdiff;根据Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diff if(Pdiff/Psame≥5)
result=unknown if(other)
当Psame至少是Pdiff的20倍时,判定任意两条酒店数据对应同一酒店;当Pdiff至少是Psame的5倍时,判定任意两条酒店数据对应不同酒店;否则,转人工判定。
其中,可以利用预先确定的对应同一酒店的多条酒店数据作为正样本,预先确定的对应不同酒店的多条酒店数据作为负样本,并按照上述方法分别获取每两个正样本的第一相似度、第二相似度和每两个负样本的第一相似度和第二相似度,使用XGB算法进行训练,得到酒店识别模型,将任意两条酒店数据的第一相似度和第二相似度输入该酒店识别模型,即可得到任意两条酒店数据对应同一酒店的概率值Psame和任意两条酒店数据对应不同酒店的概率值Pdiff。
本实施例中,通过获取至少两条酒店数据,并根据至少两条酒店数据,获取至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;对每一条酒店数据中的文本数据和图像数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源;同时,对文本数据和图像数据进行特征提取,获得文本特征和图像特征,并基于文本特征和图像特征进行酒店识别,能够有效解决直接根据酒店数据进行酒店识别时存在的不同的数据平台提供的酒店数据形式不同,导致同一种识别方法和模型无法兼容不同的数据平台的酒店数据的问题,本实施例的方法中文本特征和图像特征的数据形式完全相同,因此本实施例的方法能够兼容所有数据平台提供的酒店数据,节约模型训练成本。
图3为本申请实施例提供的一种酒店识别处理装置的结构示意图,如图3所示,该装置包括:
获取单元1,用于获取至少两条酒店数据;
第一处理单元2,用于根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;
第二处理单元3,用于根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;
第三处理单元4,用于根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店,并将对应同一酒店的酒店数据合并后显示。
本实施例中,通过获取至少两条酒店数据;根据至少两条酒店数据,确定至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源。
图4为本申请实施例提供的另一种酒店识别处理装置的结构示意图,在图3的基础上,如图4所示,
酒店数据包括文本数据和图像数据,第一处理单元2,包括:
第一处理子单元21,用于根据至少两条酒店数据,获取至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;
第二处理子单元22,用于对每一条酒店数据中的文本数据和图像数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
文本数据包括名称数据、地址数据和经纬度数据,文本特征包括名称特征、类型特征和地址特征,第二处理子单元22,包括:
第一处理模块221,用于根据每一条酒店数据中的文本数据,获取每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;
第二处理模块222,用于对名称数据进行第一分词处理,得到第一地址特征;根据地址数据,确定第二地址特征;根据经纬度数据,确定第三地址特征;对第一地址特征、第二地址特征和第三地址特征进行特征合并,得到至少两条酒店数据中的每一条酒店数据对应的地址特征;
第三处理模块223,用于对名称数据进行第二分词处理,得到至少两条酒店数据中的每一条酒店数据对应的类型特征;
第四处理模块224,用于对名称数据进行第三分词处理,得到至少两条酒店数据中的每一条酒店数据对应的名称特征。
第二处理单元3,包括:
第三处理子单元31,用于根据每一条酒店数据对应的地址特征,确定至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;
第四处理子单元32,用于根据每一条酒店数据对应的类型特征,确定至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;
第五处理子单元33,用于根据每一条酒店数据对应的名称特征,确定至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;
第六处理子单元34,用于按照第一预设规则对第三相似度、第四相似度和第五相似度进行加权处理,得到至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
图像数据包括图像内容数据和图像质量数据,图像特征包括图像内容特征和图像质量特征,第二处理子单元22,还包括:
第五处理模块225,用于根据每一条酒店数据中的图像数据,获取每一条酒店数据中的图像数据的图像内容数据和图像质量数据;
第六处理模块226,用于根据图像内容数据,确定至少两条酒店数据中的每一条酒店数据对应的图像内容特征;
第七处理模块227,用于根据图像质量数据,确定至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
第二处理单元3,还包括:
第七处理子单元35,用于根据每一条酒店数据对应的图像内容特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;
第八处理子单元36,用于根据每一条酒店数据对应的图像质量特征,确定至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;
第九处理子单元37,用于按照第二预设规则对第六相似度和第七相似度进行加权处理,得到至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
第三处理单元4,包括:
第十处理子单元41,用于根据第一相似度和第二相似度,确定任意两条酒店数据对应同一酒店的概率值Psame和任意两条酒店数据对应不同酒店的概率值Pdiff;
第十一处理子单元42,用于根据Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diff if(Pdiff/Psame≥5)
result=unknown if(other)
当Psame至少是Pdiff的20倍时,判定任意两条酒店数据对应同一酒店;当Pdiff至少是Psame的5倍时,判定任意两条酒店数据对应不同酒店;否则,转人工判定。
其中,至少两条酒店数据来源于不同的数据平台。
从来源于所有数据平台的所有酒店数据中获取至少两条酒店数据,获取单元1包括:
第十二处理子单元11,用于根据来源于所有数据平台的所有酒店数据,建立所有酒店数据的索引数据;
第十三处理子单元12,用于根据索引数据,按照预设的索引条件,从所有酒店数据中获取至少两条酒店数据。
本实施例中,通过获取至少两条酒店数据,并根据至少两条酒店数据,获取至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;对每一条酒店数据中的文本数据和图像数据进行特征提取,得到至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;根据每一条酒店数据对应的文本特征和图像特征,确定至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;根据第一相似度和第二相似度,判断任意两条酒店数据是否对应同一酒店。通过获取任意两条酒店数据文本特征和图像特征,并根据文本特征的第一相似度和图像特征的第二相似度,判断该任意两条酒店数据是否对应同一酒店,从文本和图像两个维度来识别酒店数据对应的酒店,准确率高,而且无需人工审核,节约人力资源;同时,对文本数据和图像数据进行特征提取,获得文本特征和图像特征,并基于文本特征和图像特征进行酒店识别,能够有效解决直接根据酒店数据进行酒店识别时存在的不同的数据平台提供的酒店数据形式不同,导致同一种识别方法和模型无法兼容不同的数据平台的酒店数据的问题,本实施例的方法中文本特征和图像特征的数据形式完全相同,因此本实施例的方法能够兼容所有数据平台提供的酒店数据,节约模型训练成本。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的酒店识别处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的酒店识别处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的酒店识别处理的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的酒店识别处理的方法对应的程序指令/模块(例如,附图3所示的获取单元1、第一处理单元2和第二处理单元3)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的酒店识别处理的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据酒店识别处理的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至酒店识别处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
酒店识别处理的方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与酒店识别处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本实施例提供的酒店识别处理系统的原理和有益效果,参考图1-图2中的酒店识别处理方法的原理和有益效果,不再赘述。
本申请实施例还提供了一种酒店识别处理的方法,该方法包括:接收图像搜索指令,基于图像搜索指令中的待搜索图像,确定与待搜索图像匹配的图像组并显示;其中,待搜索图像包括至少一个第一图像主体,第一图像主体可以是以下任意一种或者几种:文字、图形和电子图像。
本实施例提供的酒店识别处理方法的原理和有益效果,参考图1-图2中的酒店识别处理方法的原理和有益效果,不再赘述。
在本申请实施例中,上述各实施例之间可以相互参考和借鉴,相同或相似的步骤以及名词均不再一一赘述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种酒店识别处理方法,其特征在于,该方法包括:
获取至少两条酒店数据;
根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;
根据所述每一条酒店数据对应的文本特征和图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;
根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,并将对应同一酒店的所述酒店数据合并后显示。
2.根据权利要求1所述的方法,其特征在于,所述酒店数据包括文本数据和图像数据,所述根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征,包括:
根据所述至少两条酒店数据,获取所述至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;
对所述每一条酒店数据中的文本数据和图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
3.根据权利要求2所述的方法,其特征在于,所述文本数据包括名称数据、地址数据和经纬度数据,所述文本特征包括名称特征、类型特征和地址特征,对所述每一条酒店数据中的文本数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征,包括:
根据所述每一条酒店数据中的文本数据,获取所述每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;
对所述名称数据进行第一分词处理,得到第一地址特征;根据所述地址数据,确定第二地址特征;根据所述经纬度数据,确定第三地址特征;对所述第一地址特征、第二地址特征和第三地址特征进行特征合并,得到所述至少两条酒店数据中的每一条酒店数据对应的地址特征;
对所述名称数据进行第二分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的类型特征;
对所述名称数据进行第三分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的名称特征。
4.根据权利要求3所述的方法,其特征在于,根据所述每一条酒店数据对应的文本特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度,包括:
根据所述每一条酒店数据对应的地址特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;
根据所述每一条酒店数据对应的类型特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;
根据所述每一条酒店数据对应的名称特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;
按照第一预设规则对所述第三相似度、第四相似度和第五相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
5.根据权利要求2所述的方法,其特征在于,所述图像数据包括图像内容数据和图像质量数据,所述图像特征包括图像内容特征和图像质量特征,对所述每一条酒店数据中的图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的图像特征,包括:
根据所述每一条酒店数据中的图像数据,获取所述每一条酒店数据中的图像数据的图像内容数据和图像质量数据;
根据所述图像内容数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像内容特征;
根据所述图像质量数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
6.根据权利要求5所述的方法,其特征在于,根据所述每一条酒店数据对应的图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度,包括:
根据所述每一条酒店数据对应的图像内容特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;
根据所述每一条酒店数据对应的图像质量特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;
按照第二预设规则对所述第六相似度和第七相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
7.根据权利要求1-6任一项所述的方法,其特征在于,根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,包括:
根据所述第一相似度和所述第二相似度,确定所述任意两条酒店数据对应同一酒店的概率值Psame和所述任意两条酒店数据对应不同酒店的概率值Pdiff;
根据所述Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diff if(Pdiff/Psame≥5)
result=unknown if(other)
当所述Psame至少是所述Pdiff的20倍时,判定所述任意两条酒店数据对应同一酒店;当所述Pdiff至少是所述Psame的5倍时,判定所述任意两条酒店数据对应不同酒店;否则,转人工判定。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述至少两条酒店数据来源于不同的数据平台。
9.根据权利要求8所述的方法,其特征在于,从来源于所有数据平台的所有酒店数据中获取所述至少两条酒店数据,所述获取至少两条酒店数据包括:
根据所述来源于所有数据平台的所有酒店数据,建立所述所有酒店数据的索引数据;
根据所述索引数据,按照预设的索引条件,从所述所有酒店数据中获取所述至少两条酒店数据。
10.一种酒店识别处理装置,其特征在于,该装置包括:
获取单元,用于获取至少两条酒店数据;
第一处理单元,用于根据所述至少两条酒店数据,确定所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征;
第二处理单元,用于根据所述每一条酒店数据对应的文本特征和图像特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度和图像特征的第二相似度;
第三处理单元,用于根据所述第一相似度和所述第二相似度,判断所述任意两条酒店数据是否对应同一酒店,并将对应同一酒店的所述酒店数据合并后显示。
11.根据权利要求10所述的装置,其特征在于,所述酒店数据包括文本数据和图像数据,所述第一处理单元,包括:
第一处理子单元,用于根据所述至少两条酒店数据,获取所述至少两条酒店数据中的每一条酒店数据中的文本数据和图像数据;
第二处理子单元,用于对所述每一条酒店数据中的文本数据和图像数据进行特征提取,得到所述至少两条酒店数据中的每一条酒店数据对应的文本特征和图像特征。
12.根据权利要求11所述的装置,其特征在于,所述文本数据包括名称数据、地址数据和经纬度数据,所述文本特征包括名称特征、类型特征和地址特征,所述第二处理子单元,包括:
第一处理模块,用于根据所述每一条酒店数据中的文本数据,获取所述每一条酒店数据中的文本数据中的名称数据、地址数据和经纬度数据;
第二处理模块,用于对所述名称数据进行第一分词处理,得到第一地址特征;根据所述地址数据,确定第二地址特征;根据所述经纬度数据,确定第三地址特征;对所述第一地址特征、第二地址特征和第三地址特征进行特征合并,得到所述至少两条酒店数据中的每一条酒店数据对应的地址特征;
第三处理模块,用于对所述名称数据进行第二分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的类型特征;
第四处理模块,用于对所述名称数据进行第三分词处理,得到所述至少两条酒店数据中的每一条酒店数据对应的名称特征。
13.根据权利要求12所述的装置,其特征在于,所述第二处理单元,包括:
第三处理子单元,用于根据所述每一条酒店数据对应的地址特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的地址特征的第三相似度;
第四处理子单元,用于根据所述每一条酒店数据对应的类型特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的类型特征的第四相似度;
第五处理子单元,用于根据所述每一条酒店数据对应的名称特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的名称特征的第五相似度;
第六处理子单元,用于按照第一预设规则对所述第三相似度、第四相似度和第五相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的文本特征的第一相似度。
14.根据权利要求11所述的装置,其特征在于,所述图像数据包括图像内容数据和图像质量数据,所述图像特征包括图像内容特征和图像质量特征,所述第二处理子单元,还包括:
第五处理模块,用于根据所述每一条酒店数据中的图像数据,获取所述每一条酒店数据中的图像数据的图像内容数据和图像质量数据;
第六处理模块,用于根据所述图像内容数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像内容特征;
第七处理模块,用于根据所述图像质量数据,确定所述至少两条酒店数据中的每一条酒店数据对应的图像质量特征。
15.根据权利要求14所述的装置,其特征在于,所述第二处理单元,还包括:
第七处理子单元,用于根据所述每一条酒店数据对应的图像内容特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像内容特征的第六相似度;
第八处理子单元,用于根据所述每一条酒店数据对应的图像质量特征,确定所述至少两条酒店数据中的任意两条酒店数据对应的图像质量特征的第七相似度;
第九处理子单元,用于按照第二预设规则对所述第六相似度和第七相似度进行加权处理,得到所述至少两条酒店数据中的任意两条酒店数据对应的图像特征的第二相似度。
16.根据权利要求10-15任一项所述的装置,其特征在于,所述第三处理单元,包括:
第十处理子单元,用于根据所述第一相似度和所述第二相似度,确定所述任意两条酒店数据对应同一酒店的概率值Psame和所述任意两条酒店数据对应不同酒店的概率值Pdiff;
第十一处理子单元,用于根据所述Psame和Pdiff,进行如下判定:
result=same if(Psame/Pdiff≥20)
result=diff if(Pdiff/Psame≥5)
result=unknown if(other)
当所述Psame至少是所述Pdiff的20倍时,判定所述任意两条酒店数据对应同一酒店;当所述Pdiff至少是所述Psame的5倍时,判定所述任意两条酒店数据对应不同酒店;否则,转人工判定。
17.根据权利要求10-15任一项所述的装置,其特征在于,所述至少两条酒店数据来源于不同的数据平台。
18.根据权利要求17所述的装置,其特征在于,从来源于所有数据平台的所有酒店数据中获取所述至少两条酒店数据,所述获取单元包括:
第十二处理子单元,用于根据所述来源于所有数据平台的所有酒店数据,建立所述所有酒店数据的索引数据;
第十三处理子单元,用于根据所述索引数据,按照预设的索引条件,从所述所有酒店数据中获取所述至少两条酒店数据。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084428.4A CN111325638A (zh) | 2020-02-10 | 2020-02-10 | 酒店识别处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084428.4A CN111325638A (zh) | 2020-02-10 | 2020-02-10 | 酒店识别处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111325638A true CN111325638A (zh) | 2020-06-23 |
Family
ID=71172677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010084428.4A Pending CN111325638A (zh) | 2020-02-10 | 2020-02-10 | 酒店识别处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325638A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907148A (zh) * | 2021-04-01 | 2021-06-04 | 携程商旅信息服务(上海)有限公司 | 基于服务商的产品信息的处理方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090287546A1 (en) * | 2008-05-16 | 2009-11-19 | Trx, Inc. | System and method for organizing hotel-related data |
CN104751232A (zh) * | 2015-04-27 | 2015-07-01 | 携程计算机技术(上海)有限公司 | 酒店自动匹配方法 |
US20150248707A1 (en) * | 2014-03-03 | 2015-09-03 | Adara, Inc. | Hotel Recommendation Engine Based on Customer Data from Multiple Online Sources |
CN106875134A (zh) * | 2017-03-30 | 2017-06-20 | 携程计算机技术(上海)有限公司 | Ota的民宿客栈挖掘方法 |
CN109522431A (zh) * | 2018-09-20 | 2019-03-26 | 上海博泰悦臻网络技术服务有限公司 | 一种基于图片识别的酒店推荐方法及系统 |
CN110263022A (zh) * | 2019-05-08 | 2019-09-20 | 深圳丝路天地电子商务有限公司 | 酒店数据匹配方法及装置 |
-
2020
- 2020-02-10 CN CN202010084428.4A patent/CN111325638A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090287546A1 (en) * | 2008-05-16 | 2009-11-19 | Trx, Inc. | System and method for organizing hotel-related data |
US20150248707A1 (en) * | 2014-03-03 | 2015-09-03 | Adara, Inc. | Hotel Recommendation Engine Based on Customer Data from Multiple Online Sources |
CN104751232A (zh) * | 2015-04-27 | 2015-07-01 | 携程计算机技术(上海)有限公司 | 酒店自动匹配方法 |
CN106875134A (zh) * | 2017-03-30 | 2017-06-20 | 携程计算机技术(上海)有限公司 | Ota的民宿客栈挖掘方法 |
CN109522431A (zh) * | 2018-09-20 | 2019-03-26 | 上海博泰悦臻网络技术服务有限公司 | 一种基于图片识别的酒店推荐方法及系统 |
CN110263022A (zh) * | 2019-05-08 | 2019-09-20 | 深圳丝路天地电子商务有限公司 | 酒店数据匹配方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907148A (zh) * | 2021-04-01 | 2021-06-04 | 携程商旅信息服务(上海)有限公司 | 基于服务商的产品信息的处理方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11698261B2 (en) | Method, apparatus, computer device and storage medium for determining POI alias | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN111428049B (zh) | 一种事件专题的生成方法、装置、设备和存储介质 | |
CN111782977B (zh) | 兴趣点处理方法、装置、设备及计算机可读存储介质 | |
CN107656913A (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
EP3896690A1 (en) | Voice interaction method and apparatus, device and computer storage medium | |
CN110705460A (zh) | 图像类别识别方法及装置 | |
WO2021135319A1 (zh) | 基于深度学习的文案生成方法、装置及电子设备 | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
CN111488740A (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN107577819A (zh) | 一种文本内容展现方法、装置、计算机设备和存储介质 | |
CN111814077A (zh) | 信息点查询方法、装置、设备和介质 | |
CN111639253A (zh) | 一种数据判重方法、装置、设备及存储介质 | |
CN111737430A (zh) | 实体链接方法、装置、设备以及存储介质 | |
CN112000763A (zh) | 兴趣点竞争关系确定方法、装置、设备和介质 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN111666461A (zh) | 检索地理位置的方法、装置、设备和计算机存储介质 | |
CN111949820B (zh) | 视频关联兴趣点的处理方法、装置及电子设备 | |
CN111325638A (zh) | 酒店识别处理方法、装置、设备及存储介质 | |
CN106462629A (zh) | 搜索中的直接答案触发 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
US20230139243A1 (en) | Method and apparatus for processing map information, and storage medium | |
CN111125550A (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN112182409A (zh) | 数据处理方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |