CN107291939B - 酒店信息的聚类匹配方法及系统 - Google Patents
酒店信息的聚类匹配方法及系统 Download PDFInfo
- Publication number
- CN107291939B CN107291939B CN201710547456.3A CN201710547456A CN107291939B CN 107291939 B CN107291939 B CN 107291939B CN 201710547456 A CN201710547456 A CN 201710547456A CN 107291939 B CN107291939 B CN 107291939B
- Authority
- CN
- China
- Prior art keywords
- hotel
- similarity
- clustered
- compared
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 94
- 238000011156 evaluation Methods 0.000 claims description 82
- 238000007781 pre-processing Methods 0.000 claims description 37
- 230000000052 comparative effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种酒店信息的聚类匹配方法及系统,其中所述聚类匹配方法包括:S1、获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;S2、计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;S3、计算所述待聚类酒店与所述对比酒店的酒店相似度。本发明弥补了在海量级酒店信息库中,传统匹配方法匹配酒店时,效率低,错误率高的缺陷。通过本聚类匹配方法,使用户能更快、更准确地在酒店信息库中找到相似度高的酒店,并聚类匹配到同一家酒店。
Description
技术领域
本发明涉及酒店数据管理领域,特别是涉及一种酒店信息的聚类匹配方法及系统。
背景技术
现代社会已经进入大数据、云计算时代,互联网的快速发展产生了海量的数据信息。但这些海量的数据中也存在大量的重复冗余或者是相似相近的信息,同时信息中还夹杂着不少干扰信息。为了获取信息之间的关系,需要通过聚类分析,找到相关相近信息,然后可以进行聚类或是去重,把相关相似的信息归为同一类处理。
现有的在线旅游网站在匹配酒店时,同样存在上述的问题,目前在酒店信息库中,匹配酒店时所采用的相似度算法都是基于“分词+词库+字符”相似度的规则进行匹配。而实际生活中,酒店信息库数据量非常大,传统的匹配方法所使用相似性算法无法胜任在大数据条件下的聚类,算法运行时间按周计算而无法接受。
此外,现有的酒店信息库存在酒店特征信息缺少或错误,酒店数据大量的重复冗余,多家酒店共有相同酒店特征信息,以及人为因素引入的脏数据或异常数据等情况。传统的匹配方法,匹配结果错误率高。
所以传统的匹配方法,无法满足在海量级的酒店信息库中,特别是酒店信息缺少和错误的情况下,查找出与待匹配的酒店相同或相似的酒店。
发明内容
本发明要解决的技术问题是为了克服现有技术中传统聚类和去重方法无法胜任在大数据条件下的酒店信息库中聚类的缺陷,提供一种酒店信息的聚类匹配方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
一种酒店信息的聚类匹配方法,所述聚类匹配方法包括:
S1、获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;
S2、计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
S3、计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为步骤S2中,第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度。
较佳地,S1还包括:
建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;
将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
较佳地,S1中的所述酒店特征信息包括酒店名称;
S2包括:计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
较佳地,计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度包括:
S201、通过以下步骤的一种或多种对所述待聚类酒店和所述对比酒店的酒店名称进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店名称进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店名称中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店名称中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店名称中变音符号转化为英文;
S202、采用基于地理位置的局部逆文档频率的文本向量余弦相似度计算方法计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
较佳地,S1中的所述酒店特征信息包括酒店地址;
S2包括:计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度;
较佳地,计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度包括:
S211、通过以下步骤的一种或多种对所述待聚类酒店和所述对比酒店的酒店地址进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文;
S212、采用文本向量余弦相似度计算方法计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
较佳地,S1中的所述酒店特征信息包括酒店电话;
S2包括:计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度;
较佳地,计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度包括:
S221、通过删除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,对所述待聚类酒店和所述对比酒店的酒店电话进行预处理;
S222、比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0。
较佳地,S1中的所述酒店特征信息包括酒店经纬度;
S2包括:计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度;
较佳地,采用归一化计算方法计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
较佳地,所述酒店信息的聚类匹配方法还包括:根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
较佳地,所述酒店相似度评价,包括:
S41、制定所述酒店相似度评价的评价档次;
S42、对所述评价档次制定评价规则,所述评价规则包括对所述酒店特征信息的相似度进行阈值设定;
S43、将步骤S2中的所述酒店特征信息的相似度与所述评价规则进行匹配,确定所述待聚类酒店与所述对比酒店的酒店相似度的评价档次。
一种酒店信息的聚类匹配系统,包括:
选取单元,用于获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;
酒店特征信息相似度计算单元,用于计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
酒店相似度计算单元,用于计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度。
较佳地,所述选取单元还包括创建模块和索引模块;
所述创建模块用于建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
所述索引模块用于根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
较佳地,所述选取单元中的所述酒店特征信息包括酒店名称;
所述酒店特征信息相似度计算单元包括:酒店名称相似度计算模块;
所述酒店名称相似度计算模块用于计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
较佳地,所述酒店名称相似度计算模块包括:酒店名称预处理子模块和酒店名称相似度计算子模块;
所述酒店名称预处理子模块用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店名称进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店名称进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店名称中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店名称中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店名称中变音符号转化为英文;
所述酒店名称相似度计算子模块用于采用基于地理位置的局部逆文档频率的文本向量余弦相似度计算方法计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
较佳地,所述选取单元中的所述酒店特征信息包括酒店地址;
所述酒店特征信息相似度计算单元包括:酒店地址相似度计算模块;
所述酒店地址相似度计算模块用于计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度;
较佳地,所述酒店地址相似度计算模块包括:酒店地址预处理子模块和酒店地址相似度计算子模块;
所述酒店地址预处理子模块用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店地址进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文;
所述酒店地址相似度计算子模块用于采用文本向量余弦相似度计算方法计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
较佳地,所述选取单元中的所述酒店特征信息包括酒店电话;
所述酒店特征信息相似度计算单元包括:酒店电话相似度计算模块;
所述酒店电话相似度计算模块用于计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度;
较佳地,所述酒店电话相似度计算模块包括:酒店电话预处理子模块和酒店电话相似度计算子模块;
所述酒店电话预处理子模块用于通过删除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,对所述待聚类酒店和所述对比酒店的酒店电话进行预处理;
所述酒店电话相似度计算子模块用于比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0。
较佳地,所述选取单元中的所述酒店特征信息包括酒店经纬度;
所述酒店特征信息相似度计算单元包括:酒店经纬度相似度计算模块;
所述酒店经纬度相似度计算模块用于计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度;
较佳地,所述酒店经纬度相似度计算模块包括:酒店经纬度相似度计算子模块;
所述酒店经纬度相似度计算子模块用于采用归一化计算方法计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
较佳地,所述酒店信息的聚类匹配系统还包括:酒店相似度评价单元;
所述酒店相似度评价单元用于根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
较佳地,所述酒店相似度评价单元包括:设档模块、规则模块和匹配模块;
所述设档模块用于制定所述酒店相似度评价的评价档次;
所述规则模块用于对所述评价档次制定评价规则,所述评价规则包括对所述酒店特征信息的相似度进行阈值设定;
所述匹配模块用于将所述酒店特征信息相似度计算单元中的所述酒店特征信息的相似度与所述评价规则进行匹配,确定所述待聚类酒店与所述对比酒店的酒店相似度的评价档次。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:在海量级的酒店信息库中,用户能更快、更准确地找到相似度高的酒店,并聚类匹配到同一家酒店。
附图说明
图1为本发明较佳实施例的酒店信息的聚类匹配方法的流程图。
图2为本发明较佳实施例的酒店信息的聚类匹配系统的系统框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
图1示出了本实施例的酒店信息的聚类匹配方法的流程图。所述酒店信息的聚类匹配方法包括:
步骤101,获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息,然后执行步骤102。
所述对比酒店,通过如下方式获取。
先建立酒店信息库,本实施例,利用SolrCloud(分布式搜索方案)在云端上建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引。
SolrCloud是一个基于Lucene(全文搜索框架)的分布式全文检索服务,利用SolrCloud,根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,主要是进行文本分词、词频统计和地理空间计算等操作,检索时会根据相似度进行评分排序,然后SlorCloud根据所设定的酒店数的上限,挑选至少一预匹配酒店,形成预匹配酒店集合,将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
另外,酒店信息库会定时的更新,使用户能及时获取到最新的酒店特征信息。
本步骤,快速缩小了酒店信息库的数量级,为后续步骤相似度的计算降低了计算量,提高了效率。
步骤102,计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度,然后执行步骤103。
本实施例是通过对酒店特征信息中的,酒店名称、酒店地址、酒店电话和酒店经纬度来进行相似度的计算,分为如下的四步。
第一步,计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
在计算前,对所述待聚类酒店和所述对比酒店的酒店名称进行预处理,预处理包括:
1、根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换:
根据同义词词库,将所述待聚类酒店和所述对比酒店的酒店名称中,文字不一致,但意思相同的词进行统一化。如centre(中心区)和center(中心区),会统一替换成center。
此外,除了同义词替换,还根据缩略词库,将缩略词替换成完整的单词,如s替换为south(南),w替换为west(西),n替换为north(北),e替换为east(东)。
2、删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符
如:“”《》?、;‘,。°'\\-/。没有特殊含义,且会影响相似度计算的字符删除。
3、删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词
根据高频无用词库,将所述待聚类酒店和所述对比酒店的酒店名称中,高频词和无用词删除。因为高频词和无用词并不能用于区分两家酒店信息,反而会干扰相似度的计算。如:hotel(酒店),the(指已提到的人(物)),at(在),by(经由),and(和)等。
4、将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文
将所述待聚类酒店和所述对比酒店的酒店名称中带有变音符号的字符,统一替换为英文,如á,è,替换为a,e。
接着,将预处理后的酒店名称,进行酒店名称相似度计算。
酒店名称由一段文本构成,酒店名称相似度实际是两个文本的相似度计算,本实施例的酒店名称相似度计算方法,采用的是基于地理位置的局部逆文档频率IDF(inversedocument frequency,逆文档频率)的文本向量余弦相似度计算方法。
单词局部逆文档频率是根据待聚类酒店的经纬度10千米范围内的酒店的名称出现的次数进行计算。单词局部逆文档频率,由局部范围内酒店总数除以包含该单词的酒店数,再将得到的商取对数得到。IDF是该单词在酒店名称中的权重,词频数越大,IDF的值越小,权重也越低。
最后,将局部逆文档频率作为该单词的向量值进行余弦相似度计算,得到酒店名称相似度Sname。
余弦相似度计算方法对文本中词的顺序无关。这样可以忽略酒店名称中单词的顺序问题。
如果酒店中含有数字,首先将数字看作一般字符,参与上述的,基于地理位置的局部逆文档频率的文本向量余弦相似度计算。然后对数字进行比较,如果不一致,将Sname乘以一个(0,1)之间的折扣系数。如果一致,将Sname乘以一个大于1的加分系数。折扣系数与加分系数经过经验值获取,并会不断的调整。
第二步,计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
和酒店名称一样,计算前,对所述待聚类酒店和所述对比酒店的酒店地址进行预处理,处理方法和酒店名称的预处理方法一样,此处,故不再赘述。
本实施例的酒店地址相似度计算方法,采用文本向量余弦方法进行计算,得到Saddress。
如酒店地址含有数字,同样的,也是现将数字作为一般字符参与文本向量余弦相似度计算。然后对数字进行比较,如果不一致,将Saddress乘以一个(0,1)之间的折扣系数。如果一致,将Saddress乘以一个大于1的加分系数。折扣系数与加分系数经过经验值获取,并会不断的调整。
第三步,计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度。
计算前,先对所述待聚类酒店和所述对比酒店的酒店电话进行预处理,此处的预处理是清除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,如-,*符号。
本实施例的酒店电话相似度计算方法,采用Google提供的国际电话号码相似度计算组件,比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0,从而得到Sphone。
第四步,计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
酒店经纬度格式是以度为单位的小数,小数精度在3位以上。两家酒店均存在有效的经纬度,计算得到两个经纬度之间的距离,距离以米为单位。通过归一化转成[0,1]之间的相似度,得到SGPS。
步骤103,计算所述待聚类酒店与所述对比酒店的酒店相似度,然后执行步骤104。
根据步骤2中,得到的,Sname,Saddress,Sphone,SGPS,代入公式:
最后得到,Shotel=Wname*Sname+Waddress*Saddress+Wphone*Sphone+WGPS*SGPS。
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度。
关于权重,最初值由经验确定,再通过反复地调节,验证数据聚类匹配的准确率,直到调节到准确率最高时停止迭代。
步骤104,根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
在上述步骤中,我们获取得到了,所述待聚类酒店与所述对比酒店的酒店,两两酒店之间的酒店相似度。但实际在大多数情况下,两家酒店相似度介于0到1之间,并不完全一致。为了进一步确认两家酒店是否为同一家酒店,本实施例对上述步骤中获取到的所述待聚类酒店与所述对比酒店的酒店特征信息的相似度进行相似度评价。
本实施例中,根据两两酒店的酒店特征信息的相似度的结果设定为四个评价档次:
第一档:相似度非常高,即酒店特征信息的相似度满足第一档若干阈值组合中的其一。
第二档:相似度较高,即酒店特征信息的相似度满足第二档若干阈值组合中的其一。
第三档:相似度较低,即酒店特征信息的相似度满足第三档若干阈值组合中的其一。
第四档:匹配无结果,即无法满足前三档所有阈值组合中的任何一条。
每档的阈值组合根据每次匹配的数据分析结果和领域知识,不断地调试后设定的。
每一个档次,由若干条的评价规则组成,每一条规则是至少一个酒店特征相似度的阈值组合。
评价规则举例:
第一档规则1:Sname大于0.80;且Saddress大于0.50;且Sphone等于1;且SGPS大于0.5;
第一档规则2:Sname大于0.95;且Saddress大于0.40;且Sphone等于1或SGPS大于0.5;
满足上述评价规则的其一,两家酒店的相似度评价为第一档。另外第二档,第三档同理。
具体的,将酒店名称相似度,酒店地址相似度,酒店电话相似度和酒店经纬度相似度设定相应的阈值范围,来组成多条评价规则。然后,根据将两家酒店的酒店名称相似度,酒店地址相似度,酒店电话相似度和酒店经纬度相似度,与所定制的评价规则进行匹配,最终确认两家酒店落入哪个评价档次。
评价档次之间是互斥的,满足某高一档的规则后不再进行其他规则的评价,而且评价顺序是从第一档的规则开始、再进行第二档的规则匹配,最后到第三档,按顺序依次匹配,如果前三个档的评价规则都不符合的话,即落入第四档,也就是未匹配档。
满足上述评价规则的,为两家酒店的相似度落入第一档。
评价规则的阈值的确定,是通过反复的实验验证其准确率来完成。相同条件下,取准确率最高时的阈值。
在酒店聚类匹配的应用中,实际需求会根据评价的档次来确定酒店是否可以完成匹配。一般地,认为满足第一档的匹配可以无须人工干预自动完成匹配,第二、三档的匹配是需要人工进一步确认
在评价中,由于部分酒店特征信息缺失和错误会造成某些相似度会比较低,但如果其他已有的酒店特征信息相似度很高的话,也可以认为是同一家酒店,进入第一档。同时,需要调整评价规则,最大限度地提高匹配算法的召回率。
酒店信息库中会存在非同一家的两个酒店特征信息相同或酒店特征信息相似度非常高的情况,这种情况很容易匹配错误。本实施例,通过建立黑名单来解决此问题。
对那些多家酒店共有同一电话,多家酒店共用同一位置,酒店特征信息相似度非常高的酒店,根据目标结果(预测正确的测试结果),将这些酒店信息加入黑名单中。
黑名单支持多种对比方式,本实施例对酒店名称、酒店地址、酒店电话、酒店经纬度进行对比。以下几种情况,认为所述酒店落入黑名单:
酒店名称和酒店地址采用正则表达式来计算,即满足正则表达式的酒店;
酒店电话与黑名单上的酒店电话一致的酒店;
酒店经纬度在黑名单上的酒店经纬度周边100m内的酒店。
在进行酒店相似度评价时,先与上述所制定的评价规则进行匹配,然后,将落入第一档次中的对比酒店中的酒店与黑名单上的酒店信息进行对比。如果没有落入黑名单,保留目前的评价规则;如落入了黑名单,提高相应的评价规则的阈值再次评价,如果仍然通过了更严格的规则,保留评价档次。否则,评价档次从第一档降级为第二档。
最后,对上述的评价结果进行排序。如果存在多个档次的酒店,仅返回最高档次酒店列表。在同一档的酒店列表中,根据特定的酒店特征信息的相似度阈值和所述酒店相似度进行排序处理。
本实施例选用酒店名称为特定的酒店特征信息,在同一档的酒店列表中,先判断是否存在酒店名称相似度大于0.99的酒店,如存在,在此范围内的酒店,根据酒店名称相似度进行排序,放在最终结果列表的前部。该档次余下的酒店根据酒店相似度,即对Shotel进行排序。
对上述的结果,与目标结果进行验证对比,不断的优化算法,主要的优化算法为:数据清理过程的优化、优化相似度计算的算法、优化酒店相似度评价体系的阈值、黑名单酒店信息的完善。
本实施例的一种酒店信息的聚类匹配系统,如图2所示,包括:
选取单元21,用于获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;
酒店特征信息相似度计算单元22,用于计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
酒店相似度计算单元23,用于计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为步骤S2中,第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度。
选取单元21还包括创建模块211和索引模块212;
创建模块211用于建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
索引模块212用于根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
所述选取单元21中的所述酒店特征信息包括酒店名称;
所述酒店特征信息相似度计算单元22包括:酒店名称相似度计算模块221;
酒店名称相似度计算模块221用于计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
较佳地,所述酒店名称相似度计算模块221包括:酒店名称预处理子模块2211和酒店名称相似度计算子模块2212;
所述酒店名称预处理子模块2211用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店名称进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店名称进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店名称中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店名称中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店名称中变音符号转化为英文;
酒店名称相似度计算子模块2212用于采用基于地理位置的局部逆文档频率的文本向量余弦相似度计算方法计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
所述选取单元21中的所述酒店特征信息包括酒店地址;
所述酒店特征信息相似度计算单元22包括:酒店地址相似度计算模块222;
所述酒店地址相似度计算模块222用于计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度;
较佳地,所述酒店地址相似度计算模块222包括:酒店地址预处理子模块2221和酒店地址相似度计算子模块2222;
所述酒店地址预处理子模块2221用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店地址进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文;
所述酒店地址相似度计算子模块2222用于采用文本向量余弦相似度计算方法计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
所述选取单元21中的所述酒店特征信息包括酒店电话;
所述酒店特征信息相似度计算单元22包括:酒店电话相似度计算模块223;
所述酒店电话相似度计算模块223用于计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度;
较佳地,所述酒店电话相似度计算模块223包括:酒店电话预处理子模块2231和酒店电话相似度计算子模块2232;
所述酒店电话预处理子模块2231用于通过删除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,对所述待聚类酒店和所述对比酒店的酒店电话进行预处理;
所述酒店电话相似度计算子模块2232用于比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0。
所述选取单元21中的所述酒店特征信息包括酒店经纬度;
所述酒店特征信息相似度计算单元22包括:酒店经纬度相似度计算模块224;
所述酒店经纬度相似度计算模块224用于计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度;
较佳地,所述酒店经纬度相似度计算模块224包括:酒店经纬度相似度计算子模块2241;
所述酒店经纬度相似度计算子模块2241用于采用归一化计算方法计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
所述酒店信息的聚类匹配系统还包括:酒店相似度评价单元24;
所述酒店相似度评价单元24用于根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
所述酒店相似度评价单元24包括:设档模块241、规则模块242和匹配模块243;
所述设档模块241用于制定所述酒店相似度评价的评价档次;
所述规则模块242用于对所述评价档次制定评价规则,所述评价规则包括对所述酒店特征信息的相似度进行阈值设定;
所述匹配模块243用于将所述酒店特征信息相似度计算单元22中的所述酒店特征信息的相似度与所述评价规则进行匹配,确定所述待聚类酒店与所述对比酒店的酒店相似度的评价档次。
本实施例的酒店信息的聚类匹配方法,使用户在海量级的酒店信息库中,能更快、更准确地找到相似度高的酒店,并通过相似度的评价体系,能快速地聚类匹配到同一家酒店。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种酒店信息的聚类匹配方法,其特征在于,所述聚类匹配方法包括:
S1、获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;所述酒店特征信息包括酒店名称、酒店地址、酒店电话以及酒店经纬度;
S2、计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
S3、计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为步骤S2中,第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度;
其中,S1还包括:
建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;
将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
2.如权利要求1所述的酒店信息的聚类匹配方法,其特征在于,
S1中的所述酒店特征信息包括酒店名称;
S2包括:计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
较佳地,计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度包括:
S201、通过以下步骤的一种或多种对所述待聚类酒店和所述对比酒店的酒店名称进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店名称进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店名称中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店名称中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店名称中变音符号转化为英文;
S202、采用基于地理位置的局部逆文档频率的文本向量余弦相似度计算方法计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
3.如权利要求1所述的酒店信息的聚类匹配方法,其特征在于,
S1中的所述酒店特征信息包括酒店地址;
S2包括:计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度;
较佳地,计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度包括:
S211、通过以下步骤的一种或多种对所述待聚类酒店和所述对比酒店的酒店地址进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文;
S212、采用文本向量余弦相似度计算方法计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
4.如权利要求1所述的酒店信息的聚类匹配方法,其特征在于,
S1中的所述酒店特征信息包括酒店电话;
S2包括:计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度;
较佳地,计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度包括:
S221、通过删除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,对所述待聚类酒店和所述对比酒店的酒店电话进行预处理;
S222、比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0。
5.如权利要求1所述的酒店信息的聚类匹配方法,其特征在于,
S1中的所述酒店特征信息包括酒店经纬度;
S2包括:计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度;
较佳地,采用归一化计算方法计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
6.如权利要求1所述的酒店信息的聚类匹配方法,其特征在于,所述酒店信息的聚类匹配方法还包括:根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
7.如权利要求6所述的酒店信息的聚类匹配方法,其特征在于,所述酒店相似度评价,包括:
S41、制定所述酒店相似度评价的评价档次;
S42、对所述评价档次制定评价规则,所述评价规则包括对所述酒店特征信息的相似度进行阈值设定;
S43、将步骤S2中的所述酒店特征信息的相似度与所述评价规则进行匹配,确定所述待聚类酒店与所述对比酒店的酒店相似度的评价档次。
8.一种酒店信息的聚类匹配系统,其特征在于,包括:
选取单元,用于获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;所述酒店特征信息包括酒店名称、酒店地址、酒店电话以及酒店经纬度;
酒店特征信息相似度计算单元,用于计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
酒店相似度计算单元,用于计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度;
其中,所述选取单元还包括创建模块和索引模块;
所述创建模块用于建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
所述索引模块用于根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
9.如权利要求8所述的酒店信息的聚类匹配系统,其特征在于,所述选取单元中的所述酒店特征信息包括酒店名称;
所述酒店特征信息相似度计算单元包括:酒店名称相似度计算模块;
所述酒店名称相似度计算模块用于计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
较佳地,所述酒店名称相似度计算模块包括:酒店名称预处理子模块和酒店名称相似度计算子模块;
所述酒店名称预处理子模块用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店名称进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店名称进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店名称中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店名称中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店名称中变音符号转化为英文;
所述酒店名称相似度计算子模块用于采用基于地理位置的局部逆文档频率的文本向量余弦相似度计算方法计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度。
10.如权利要求8所述的酒店信息的聚类匹配系统,其特征在于,所述选取单元中的所述酒店特征信息包括酒店地址;
所述酒店特征信息相似度计算单元包括:酒店地址相似度计算模块;
所述酒店地址相似度计算模块用于计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度;
较佳地,所述酒店地址相似度计算模块包括:酒店地址预处理子模块和酒店地址相似度计算子模块;
所述酒店地址预处理子模块用于通过以下方式的一种或多种对所述待聚类酒店和所述对比酒店的酒店地址进行预处理:
根据同义词词库,对所述待聚类酒店和所述对比酒店的酒店地址进行同义词替换;
删除所述待聚类酒店和所述对比酒店的酒店地址中没有特殊含义的字符;
删除所述待聚类酒店和所述对比酒店的酒店地址中无用词和高频词;
以及,将所述待聚类酒店和所述对比酒店的酒店地址中变音符号转化为英文;
所述酒店地址相似度计算子模块用于采用文本向量余弦相似度计算方法计算所述待聚类酒店的酒店地址与所述对比酒店的酒店地址的相似度。
11.如权利要求8所述的酒店信息的聚类匹配系统,其特征在于,所述选取单元中的所述酒店特征信息包括酒店电话;
所述酒店特征信息相似度计算单元包括:酒店电话相似度计算模块;
所述酒店电话相似度计算模块用于计算所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度;
较佳地,所述酒店电话相似度计算模块包括:酒店电话预处理子模块和酒店电话相似度计算子模块;
所述酒店电话预处理子模块用于通过删除所述待聚类酒店和所述对比酒店的酒店电话中的分隔符,对所述待聚类酒店和所述对比酒店的酒店电话进行预处理;
所述酒店电话相似度计算子模块用于比较所述待聚类酒店的酒店电话与所述对比酒店的酒店电话是否匹配,若匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为1,若不匹配,则所述待聚类酒店的酒店电话与所述对比酒店的酒店电话的相似度为0。
12.如权利要求8所述的酒店信息的聚类匹配系统,其特征在于,所述选取单元中的所述酒店特征信息包括酒店经纬度;
所述酒店特征信息相似度计算单元包括:酒店经纬度相似度计算模块;
所述酒店经纬度相似度计算模块用于计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度;
较佳地,所述酒店经纬度相似度计算模块包括:酒店经纬度相似度计算子模块;
所述酒店经纬度相似度计算子模块用于采用归一化计算方法计算所述待聚类酒店的酒店经纬度与所述对比酒店的酒店经纬度的相似度。
13.如权利要求8所述的酒店信息的聚类匹配系统,其特征在于,所述酒店信息的聚类匹配系统还包括:酒店相似度评价单元;
所述酒店相似度评价单元用于根据所述酒店特征信息的相似度,对所述待聚类酒店与所述对比酒店进行酒店相似度评价。
14.如权利要求13所述的酒店信息的聚类匹配系统,其特征在于,所述酒店相似度评价单元包括:设档模块、规则模块和匹配模块;
所述设档模块用于制定所述酒店相似度评价的评价档次;
所述规则模块用于对所述评价档次制定评价规则,所述评价规则包括对所述酒店特征信息的相似度进行阈值设定;
所述匹配模块用于将所述酒店特征信息相似度计算单元中的所述酒店特征信息的相似度与所述评价规则进行匹配,确定所述待聚类酒店与所述对比酒店的酒店相似度的评价档次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710547456.3A CN107291939B (zh) | 2017-07-06 | 2017-07-06 | 酒店信息的聚类匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710547456.3A CN107291939B (zh) | 2017-07-06 | 2017-07-06 | 酒店信息的聚类匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291939A CN107291939A (zh) | 2017-10-24 |
CN107291939B true CN107291939B (zh) | 2020-08-21 |
Family
ID=60100441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710547456.3A Active CN107291939B (zh) | 2017-07-06 | 2017-07-06 | 酒店信息的聚类匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291939B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827101B (zh) * | 2018-08-07 | 2024-05-24 | 北京京东尚科信息技术有限公司 | 一种店铺推荐的方法和装置 |
CN109191000A (zh) * | 2018-09-19 | 2019-01-11 | 北京科东电力控制系统有限责任公司 | 一种电网模型拼接边界生成方法及系统 |
CN110263022B (zh) * | 2019-05-08 | 2023-03-14 | 深圳丝路天地电子商务有限公司 | 酒店数据匹配方法及装置 |
CN110633370B (zh) * | 2019-09-19 | 2023-07-04 | 携程计算机技术(上海)有限公司 | Ota酒店标签的生成方法、系统、电子设备和介质 |
CN113139746B (zh) * | 2021-05-13 | 2023-11-14 | 深圳他米科技有限公司 | 基于人工智能的酒店续住方法、装置、设备及存储介质 |
CN113407695A (zh) * | 2021-06-23 | 2021-09-17 | 上海华客信息科技有限公司 | 基于知识库的酒店客服方法、系统、电子设备和存储介质 |
CN114358979A (zh) * | 2022-01-12 | 2022-04-15 | 平安科技(深圳)有限公司 | 酒店匹配方法、装置、电子设备及存储介质 |
CN116127342B (zh) * | 2023-04-04 | 2023-07-18 | 广州携旅信息科技有限公司 | 一种基于酒店的信息聚类处理方法、系统及平台 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823880A (zh) * | 2014-03-03 | 2014-05-28 | 国家认证认可监督管理委员会信息中心 | 一种基于属性加权计算检测机构相似度的方法 |
CN104281703A (zh) * | 2014-10-22 | 2015-01-14 | 小米科技有限责任公司 | 统一资源定位符url间相似度计算的方法及装置 |
CN105487061A (zh) * | 2015-12-01 | 2016-04-13 | 中国人民解放军海军航空工程学院 | 目标数据关联的多特征信息融合方法 |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026514B2 (en) * | 2006-10-13 | 2015-05-05 | International Business Machines Corporation | Method, apparatus and article for assigning a similarity measure to names |
US20090164454A1 (en) * | 2007-12-21 | 2009-06-25 | Sanguinetti Thomas V | System and method for searching venues based on similarity values |
US20090287546A1 (en) * | 2008-05-16 | 2009-11-19 | Trx, Inc. | System and method for organizing hotel-related data |
KR101377459B1 (ko) * | 2009-12-21 | 2014-03-26 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
-
2017
- 2017-07-06 CN CN201710547456.3A patent/CN107291939B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823880A (zh) * | 2014-03-03 | 2014-05-28 | 国家认证认可监督管理委员会信息中心 | 一种基于属性加权计算检测机构相似度的方法 |
CN104281703A (zh) * | 2014-10-22 | 2015-01-14 | 小米科技有限责任公司 | 统一资源定位符url间相似度计算的方法及装置 |
CN105487061A (zh) * | 2015-12-01 | 2016-04-13 | 中国人民解放军海军航空工程学院 | 目标数据关联的多特征信息融合方法 |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107291939A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291939B (zh) | 酒店信息的聚类匹配方法及系统 | |
CN110569328B (zh) | 实体链接方法、电子装置及计算机设备 | |
CN103389979B (zh) | 在输入法中推荐分类词库的系统、装置及方法 | |
CN111274785B (zh) | 一种文本纠错方法、装置、设备及介质 | |
CN102279889B (zh) | 一种基于地理信息的问题推送方法及系统 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN107943910A (zh) | 一种基于组合算法的个性化图书推荐方法 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN113282831A (zh) | 一种搜索信息的推荐方法、装置、电子设备及存储介质 | |
CN111831819B (zh) | 一种文本更新方法及装置 | |
CN112417091A (zh) | 一种文本检索方法及装置 | |
CN114706841B (zh) | 查询内容库构建方法、装置、电子设备及可读存储介质 | |
CN116468102A (zh) | 刀具图像分类模型剪枝方法、装置、计算机设备 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN103136256A (zh) | 一种在网络中实现信息检索的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |