CN110866188A - 信息处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
信息处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110866188A CN110866188A CN201911114907.XA CN201911114907A CN110866188A CN 110866188 A CN110866188 A CN 110866188A CN 201911114907 A CN201911114907 A CN 201911114907A CN 110866188 A CN110866188 A CN 110866188A
- Authority
- CN
- China
- Prior art keywords
- menu
- menu information
- similarity
- information
- similarity threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 81
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 9
- 235000021186 dishes Nutrition 0.000 description 37
- 238000010586 diagram Methods 0.000 description 16
- 235000013305 food Nutrition 0.000 description 16
- 239000000463 material Substances 0.000 description 16
- 241000287828 Gallus gallus Species 0.000 description 14
- 238000012937 correction Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 12
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 10
- 240000003768 Solanum lycopersicum Species 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 235000013601 eggs Nutrition 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 235000011299 Brassica oleracea var botrytis Nutrition 0.000 description 2
- 235000017647 Brassica oleracea var italica Nutrition 0.000 description 2
- 240000003259 Brassica oleracea var. botrytis Species 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000012015 potatoes Nutrition 0.000 description 2
- 235000021108 sauerkraut Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种信息处理方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;基于预设相似度阈值和所述第一相似度,确定第一菜单信息与第二菜单信息之间的映射关系,得到菜单映射表。该方案能够提高菜单识别的准确率。
Description
技术领域
本公开涉及电子应用领域中的信息处理技术领域,具体涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网行业的快速发展,人们的生活与开互联网的联系越来越紧密,人们利用互联网搜索引擎搜索关注的信息,搜索商品信息,利用电商网站搜索想要购买的物品,搜索方面的需求量逐渐增大。
但是互联网的快速发展和中文本身的特点给这些操作带来了困难,由于中文存在很多近义词和多义词,对这些词的识别率造成了很大的影响,例如,在菜品画像中的菜品分类中上下文比较少,因此同义词和纠错比较重要,例如宫爆鸡丁与宫保鸡丁的纠错、番茄与西红柿的相似性没有有效的区分,因此对具有多义词的词语菜品或菜单的识别的准确度较低。
发明内容
本公开实施例提供一种信息处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种信息处理方法。
具体的,所述信息处理方法,包括:
获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
对所述第一菜单信息与所述第二菜单信息进行字符相似度处理,得到第一相似度;
基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表。
结合第一方面,本公开在第一方面的第一种实现方式中,所述预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值;所述基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表,包括:
当所述第一相似度满足所述第一预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表;
当所述第一相似度大于等于所述第二预设相似度阈值时,将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度;
当所述第二相似度大于等于所述第三预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述得到所述菜单映射表之后,所述方法还包括:
接收目标用户对目标菜单的搜索请求;
响应所述搜索请求,从所述菜单映射表中找与所述目标菜单对应的正确菜单信息;
基于所述正确菜单信息,从所述目标商户搜索出正确商户;
将所述正确商户推送给所述目标用户。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述获取目标商户的第一菜单信息和待筛选商户的第二菜单信息,包括:
获取目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息;
对所述第一原始菜单信息和第二原始菜单信息进行过滤,得到包含菜单关键字的所述第一菜单信息和所述第二菜单信息。
结合第一方面的第一种实现方式,本公开在第一方面的第四三种实现方式中,所述将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度之后,所述方法还包括:
当所述第二相似度小于所述第三预设相似度阈值,或者所述第一相似度小于所述第二预设相似度阈值时,对所述目标菜单进行语义筛选,得到所述菜单映射表。
结合第一方面的第一种实现方式,本公开在第一方面的第五种实现方式中,所述得到所述菜单映射表之后,所述方法还包括:
获取与所述第一菜单信息的语义满足预设相似度阈值的至少一个词语信息;
将所述至少一个词语信息与所述第一菜单信息进行映射,更新所述菜单映射表,得到更新后的菜单映射表。
第二方面,本公开实施例中提供了一种信息处理装置。
具体的,所述信息处理装置,包括:
获取模块,被配置为获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
相似度模块,被配置为对所述第一菜单信息与所述第二菜单信息进行字符相似度处理,得到第一相似度;
映射模块,被配置为基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表。
结合第二方面,本公开在第二方面的第一种实现方式中,所述预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值;
所述映射模块,还被配置为当所述第一相似度满足所述第一预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表;
所述相似度模块,还被配置为当所述第一相似度大于等于所述第二预设相似度阈值时,将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度;
所述映射模块,还被配置为当所述第二相似度大于等于所述第三预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述信息处理装置还包括:接收模块、搜索模块和推送模块;
所述接收模块,被配置为所述得到所述菜单映射表之后,接收目标用户对目标菜单的搜索请求;
所述搜索模块,被配置为响应所述搜索请求,从所述菜单映射表中找与所述目标菜单对应的正确菜单信息;以及基于所述正确菜单信息,从所述目标商户搜索出正确商户;
所述推送模块,被配置为将所述正确商户推送给所述目标用户。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述获取模块包括:获取子模块和过滤子模块;
所述获取子模块,被配置为获取目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息;
所述过滤子模块,被配置为对所述第一原始菜单信息和第二原始菜单信息进行过滤,得到包含菜单关键字的所述第一菜单信息和所述第二菜单信息。
结合第二方面的第一种实现方式,本公开在第二方面的第四种实现方式中,所述信息处理装置还包括:筛选模块;
所述筛选模块,还被配置为所述将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度之后,当所述第二相似度小于所述第三预设相似度阈值,或者所述第一相似度小于所述第二预设相似度阈值时,对所述目标菜单进行语义筛选,得到所述菜单映射表。
结合第二方面的第一种实现方式,本公开在第二方面的第六种实现方式中,所述获取模块,还被配置为所述得到所述菜单映射表之后,获取与所述第一菜单信息的语义满足预设相似度阈值的至少一个词语信息;
所述映射模块,还被配置为将所述至少一个词语信息与所述第一菜单信息进行映射,更新所述菜单映射表,得到更新后的菜单映射表。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持信息处理装置执行上述第一方面中信息处理方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述信息处理装置还可以包括通信接口,用于信息处理装置与其他设备或通信网络通信。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储信息处理装置所用的计算机指令,其包含用于执行上述第一方面中信息处理方法为信息处理装置所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
上述技术方案,通过获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;采用第一相似度与第一预设相似度阈值的匹配程度,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表,实现对菜单信息的纠错映射表的生成,使得针对近义词和多义词的菜单的识别的准确率提高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1A示出根据本公开一实施方式的信息处理方法的流程图;
图1B示出根据图1所示实施方式的信息处理方法的步骤S103的流程图;
图2示出示例性的拼音编辑距离对比的示意图;
图3示出根据图1所示实施方式的信息处理方法的步骤S103或步骤S105之后的流程图;
图4示出根据图1或图3所示实施方式的信息处理方法的步骤S101的流程图;
图5示出示例性的原始菜单信息过滤为菜单信息的示意图;
图6示出根据本公开另一实施方式的信息处理方法的步骤S104之后的流程图;
图7示出根据本公开又一实施方式的信息处理方法的步骤S103或步骤S105之后的流程图;
图8示出示例性的语义相近的词语信息的示意图;
图9示出根据本公开一实施方式的信息处理装置的结构框图;
图10示出根据图9所示实施方式的信息处理装置的获取模块901的结构框图;
图11示出根据图9所示实施方式的信息处理装置的筛选模块907的结构框图;
图12示出根据本公开一实施方式的电子设备的结构框图;
图13是适于用来实现根据本公开一实施方式的信息处理方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
本公开实施例提供的技术方案通过获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;采用第一相似度与第一预设相似度阈值的匹配程度,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表,实现对菜单信息的纠错映射表的生成,使得针对近义词和多义词的菜单的识别的准确率提高。
图1A示出根据本公开一实施方式的信息处理方法的流程图。如图1A所示,所述信息处理方法包括以下步骤S101-S103:
在步骤S101中,获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
在步骤S102中,对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;
在步骤S103中,基于预设相似度阈值和第一相似度,确定第一菜单信息与第二菜单信息之间的映射关系,得到菜单映射表。
上文提及,菜品画像主要是为了给菜品打上相应的标签,方便运营、产品等对于菜品使用,菜品的处理流程与传统的自然语言处理相似,主要分为菜品的展开、过滤、相似度的映射(词向量)、分类。而在分类中对单词的前后顺序并不关注,主要关心单词的共现,因此不需要考虑词的先后关系,但是在菜品分类中上下文比较少,因此同义词和纠错比较重要,例如宫爆鸡丁与宫保鸡丁的纠错、番茄与西红柿的相似性等。
考虑到上述缺陷,在该实施方式中,提出一种信息处理方法,该方法可以对第一菜单信息和第二菜单信息进行相似度的对比,找到正确的菜单即第一菜单信息与其他菜单信息即第二菜单信息的映射表,即将语义或词义相同的菜单映射起来,使得后续在用户搜索菜单的时候可以通过映射表找到菜品,提高了菜单或菜品识别的准确性。
其中,目标商户为在某个地区(例如北京地区)或区域中选出的星级商户,即优质商户。待筛选商户为该地区中的除优质商户外的商户。
以配送平台为例进行说明,目标商户为配送平台中已注册的优质商户,而待筛选商户则为配送平台中已注册的除优质商户外的其他商户。
其中,目标商户可以是一个或多个,待筛选商户也可以一个或多个,这与实际注册用户和申请优质商户的情况相关,本公开实施例不作限制。
其中,第一菜单信息为任意一个目标商户中的所有菜品对应的菜单信息,而第二菜单信息为待筛选商户的全部菜品对应的菜单信息。
示例性的,第一菜单信息可以为西红柿炒鸡蛋,宫保鸡丁等,而第二菜单信息可以为宫爆鸡丁,干锅西兰花,番茄炒蛋等。
在本公开实施例中,信息处理装置可以基于预设相似度阈值和第一相似度的匹配程度,进行不同程度的相似度处理,决定是直接进行映射,还是再次进行相似度处理后,再确定第一菜单信息与第二菜单信息之间的映射关系,从而最终得到菜单映射表。
在本公开实施例中,预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值。
图1B示出根据本公开一实施方式的信息处理方法的流程图。如图1B所示,步骤S103包括以下步骤S1031-S1033:
在步骤S1031中,当第一相似度满足第一预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表;
在步骤S1032中,当第一相似度大于等于第二预设相似度阈值时,将第二菜单信息转化为拼音,对拼音进行编辑距离对比,得到第二相似度;
在步骤S1033中,当第二相似度大于等于第三预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表。
在本公开实施例中,该方法可以对第一菜单信息和第二菜单信息进行二次相似度的对比,找到正确的菜单即第一菜单信息与其他菜单信息即第二菜单信息的映射表,即将语义或词义相同的菜单映射起来,使得后续在用户搜索菜单的时候可以通过映射表找到菜品,提高了菜单或菜品识别的准确性。
也就是说,通过获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;当第一相似度满足第一预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表;当第一相似度大于等于第二预设相似度阈值时,将第二菜单信息转化为拼音,对拼音进行编辑距离对比,得到第二相似度;当第二相似度大于等于第三预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表,实现对菜单信息的纠错映射表的生成,使得针对近义词和多义词的菜单的识别的准确率提高。
在本公开实施例中,信息处理装置可以为配送平台对应的后台服务器。针对一个第二菜单信息B,信息处理装置将该一个第二菜单信息B与任意一个第一菜单信息A进行字符相似度的计算,得到第一相似度。当得到的第一相似度满足第一预设相似度阈值时,表征该一个第二菜单信息B对应的正确菜单应为第一菜单信息A。
在本公开实施例中,当得到的第一相似度满足第一预设相似度阈值时,表征该一个第二菜单信息对应的正确菜单应为第一菜单信息A,即菜单映射表中的一个映射关系为第一菜单信息A-一个第二菜单信息B。
其中,第一预设相似度阈值表征相似度极高的阈值,可以直接判定待筛选商户中的某一第二菜单信息B对应的正确菜单为目标商户中的某一第一菜单信息的。第一预设相似度阈值可以为1(归一化后的值),本公开实施例不作限制。
在本公开实施例中,第二预设相似度阈值表征相似度偏高,但还需进一步进行相似度匹配的阈值,其中,第二预设相似度阈值小于第一预设相似度阈值,第二预设相似度阈值应大于0.5(归一化后的值),例如第二预设相似度阈值为0.75,本公开实施例不作限制。
其中,当第一相似度大于等于第二预设相似度阈值时,信息处理装置将第二菜单信息转化为拼音,采用拼音为单位的编辑距离的校验,来找到与某一第二菜单信息对应的正确菜单,即信息处理装置对拼音进行编辑距离对比,得到第二相似度。当第二相似度大于等于第三预设相似度阈值时,信息处理装置将第二菜单信息与第一菜单信息进行映射,得到菜单映射表。即针对一个第二菜单信息C与任意一个第一菜单信息A的字符的相似度为0.8时,信息处理装置将该一个第二菜单信息C与该第一菜单信息A转化为拼音后,进行拼音相似度的计算,得到第二相似度。当得到的第二相似度满足第三预设相似度阈值时,表征该一个第二菜单信息C对应的正确菜单应为第一菜单信息A。
在本公开实施例中,当得到的第二相似度大于等于第三预设相似度阈值时,表征该一个第二菜单信息C对应的正确菜单应为第一菜单信息A,即菜单映射表中的一个映射关系为第一菜单信息A-一个第二菜单信息C。
其中,第三预设相似度阈值小于第一预设相似度阈值,第二预设相似度阈值应大于0.5(归一化后的值),例如第三预设相似度阈值为0.75,本公开实施例不作限制。
示例性的,如图2所示,宫保鸡丁和宫爆鸡丁的拼音均为gongbaojiding,其第二相似度(相似度)为1,雪菜肉丝xuecairousi和雪柴肉丝xuechairousi的第二相似度为0.9166666666666666。
需要说明的是,本公开实施例中,菜单映射表是在对所有的待筛选商户的所有第二菜单信息都处理完后得到的总的映射关系。
在本实施例的一个可选实现方式中,信息处理装置将目标商户对应的第一菜单信息作为正确菜单,通过将第二菜单信息与第一菜单信息进行相似度比较,构造第二菜单中与正确菜单所具有的映射关系,该映射关系就是纠错的对应关系,从而提高了识别的准确性。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S1031或者步骤S1033之后,即得到菜单映射表之后,包括步骤S201-S204:
在步骤S201中,接收目标用户对目标菜单的搜索请求;
在步骤S202中,响应搜索请求,从菜单映射表中找与目标菜单对应的正确菜单信息;
在步骤S203中,基于正确菜单信息,从目标商户搜索出正确商户;
在步骤S204中,将正确商户推送给目标用户。
其中,信息处理装置在接收到目标用户在终端上对搜索目标菜单的搜索请求时,响应该搜索请求,可以从已经确定好的菜单映射表中,确定出目标菜单与映射表中的哪一对映射关系匹配,找出其中包含目标菜单的信息的映射关系后,该映射关系中的第一菜单信息就是正确菜单信息。这样信息处理装置就可以从目标商户中将包含该正确菜单信息的正确商户搜索出来了,并反馈给终端,将正确商户推送给目标用户。
在本实施方式中,信息处理装置可以通过映射表将用户搜索的与目标商户中与目标菜单信息匹配的正确商户搜索出来,推荐给目标用户,从而提高了推送的智能性,以及提高目标商户的曝光量。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S101,即获取目标商户的第一菜单信息和待筛选商户的第二菜单信息的步骤,包括步骤S301-S302:
在步骤S301中,获取目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息;
在步骤S302中,对第一原始菜单信息和第二原始菜单信息进行过滤,得到包含菜单关键字的第一菜单信息和第二菜单信息。
在本实施方式中,信息处理装置事先可以获取已注册商户的原始菜单信息,原始菜单信息中可以包括菜品、菜价,购买数量等等,并且菜单信息的表示中可以有汉字也可以有字母,符号等其他表示方式,本公开实施例不作限制。信息处理装置在获取到目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息后,需要进行数据的过滤,得到只包含每个菜单信息中的关键字的第一菜单信息和第二菜单信息。
其中,过滤的方式可以包括:第一过滤菜品中非汉字的部分,第二过滤菜品规格(比如大份小份中份),第三部过滤菜品单位如(ml、L、kg),第四部过滤菜品中一些修饰词(独家、秘制、正宗),第五部过滤菜品中出现的商户名的关键词。
示例性的,如图5所示的菜品过滤后的菜品名示意。原始菜单信息包括:菜品名称sku_name和销售价格sell_price,在进行了非汉字的过滤,规格的过滤,菜品单位的过滤,以及修饰词的过滤后,得到了过滤后的清洁名称,即菜单信息(第一菜单信息或第二菜单信息)。
在本实施例的一个可选实现方式中,如图6所示,步骤S1032之后,即将第二菜单信息转化为拼音,对拼音进行编辑距离对比,得到第二相似度的步骤之后,包括步骤S401:
步骤S401,当第二相似度小于第三预设相似度阈值,或者第一相似度小于第二预设相似度阈值时,对目标菜单进行语义筛选,得到菜单映射表。
在本公开实施例中,当第二相似度小于第三预设相似度阈值,或者第一相似度小于第二预设相似度阈值时,信息处理装置还可以进一步的对目标菜单进行语义筛选,得到菜单映射表。这是因为有的菜单的词义或语义相同,及时汉字不同,拼音编辑距离较远,也可以当做关联一致的映射关系,从而提高语义不同的识别准确率。
在本实施例的一个可选实现方式中,如图7所示,所述步骤S1031或者步骤S1032之后,即得到菜单映射表之后,包括步骤S501-S502:
步骤S501,获取与第一菜单信息的语义满足预设相似度阈值的至少一个词语信息;
步骤S502,将至少一个词语信息与第一菜单信息进行映射,更新菜单映射表,得到更新后的菜单映射表。
信息处理装置在得到菜单映射表之后,还可以基于语义进行进一步的映射关系的添加,信息处理装置可以先从含有食材关键字的百科篇幅或网络或书籍资料等,进行word2vec处理,得到与食材相似的多个词语信息(词向量),从中选出与第一菜单信息中的食材的语义相似度大于等于预设相似度阈值的至少一个词语信息,将至少一个词语信息与第一菜单信息进行映射,更新菜单映射表,得到更新后的菜单映射表。或者,从与食材相似的多个词语信息中找出最相似的预设个词语信息与第一菜单信息进行映射,得到更新后的菜单映射表。
示例性的,如图8所示,针对第一菜单信息番茄通过word2vec的方式得到的语义最相近的6个词向量可以包括:番茄(0.7807015776634216);新鲜度(0.6680692434310913);烂(0.6581120491027832);metacritic(0.62666916847229);马铃薯(0.6092041730880737);西红柿(0.6072685718536377)。
需要说明的是,信息处理装置找到的语义相近的词语信息可以通过人工运营去重后再进行映射关系的映射,进一步提高语义相近的词语的识别准确率。
示例性的,信息处理装置首先对菜品进行过滤,去掉对相似度判定不利的词,即菜品名先经过,清洗、过滤、去重,对重复菜品名按单个菜品处理,保证菜品相似度。再通过人工选取星选高端商户的菜谱、并通过相似度去重,有运营筛选出准确的菜品,提高菜品映射的准确性。对纠错首先利用字符级的余弦相似度判定、在通过转拼音的编辑距离,减少算法复杂度,提高效率。即首先通过字符级的余弦相似度并把相似度大于0.75小于1的菜品,转换成拼音,并利用编辑距离检验相似度阀值选择为0.75。减小运算的复杂度,并提高准确率。最后进行词向量的关键词映射由利于同义词的转化,在选取词向量语料时,通过选着含有食材关键词的百科文章构造上下文,提高准确率。
总的来说,针对错别字,通过选取北京地区星选商户菜单,并过滤去重,由运营去筛选唯一正确的菜名。通过菜品字符级别的相似度校验筛出具备相似度但名称不同的菜品。通过菜品名转化为拼音,通过编辑距离来判定拼音之间的相似度。设定合理的相似度阀值,来确保映射的准确性。
针对语义相同的不同表述,选择常见的菜品食材、去百度百科上出现关键词的篇章,通过词向量的技术去选取每个食材排名前6的相似度食材,并人工校验。存储到映射关系表中。在映射时通过该映射表做出映射。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图9示出根据本公开一实施方式的信息处理装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图9所示,所述信息处理装置包括:
获取模块901,被配置为获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
相似度模块902,被配置为对所述第一菜单信息与所述第二菜单信息进行字符相似度处理,得到第一相似度;
映射模块903,被配置为基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表。
上文提及,菜品画像主要是为了给菜品打上相应的标签,方便运营、产品等对于菜品使用,菜品的处理流程与传统的自然语言处理相似,主要分为菜品的展开、过滤、相似度的映射(词向量)、分类。而在分类中对单词的前后顺序并不关注,主要关心单词的共现,因此不需要考虑词的先后关系,但是在菜品分类中上下文比较少,因此同义词和纠错比较重要,例如宫爆鸡丁与宫保鸡丁的纠错、番茄与西红柿的相似性等。
考虑到上述缺陷,在该实施方式中,提出一种信息处理装置,该信息处理装置可以对第一菜单信息和第二菜单信息进行相似度的对比,找到正确的菜单即第一菜单信息与其他菜单信息即第二菜单信息的映射表,即将语义或词义相同的菜单映射起来,使得后续在用户搜索菜单的时候可以通过映射表找到菜品,提高了菜单或菜品识别的准确性。
其中,目标商户为在某个地区(例如北京地区)或区域中选出的星级商户,即优质商户。待筛选商户为该地区中的除优质商户外的商户。
以配送平台为例进行说明,目标商户为配送平台中已注册的优质商户,而待筛选商户则为配送平台中已注册的除优质商户外的其他商户。
其中,目标商户可以是一个或多个,待筛选商户也可以一个或多个,这与实际注册用户和申请优质商户的情况相关,本公开实施例不作限制。
其中,第一菜单信息为任意一个目标商户中的所有菜品对应的菜单信息,而第二菜单信息为待筛选商户的全部菜品对应的菜单信息。
示例性的,第一菜单信息可以为西红柿炒鸡蛋,宫保鸡丁等,而第二菜单信息可以为宫爆鸡丁,干锅西兰花,番茄炒蛋等。
在本公开实施例中,信息处理装置可以基于预设相似度阈值和第一相似度的匹配程度,进行不同程度的相似度处理,决定是直接进行映射,还是再次进行相似度处理后,再确定第一菜单信息与第二菜单信息之间的映射关系,从而最终得到菜单映射表。
在本公开实施例中,所述预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值。
在本公开实施例中,所述映射模块903,被配置为当所述第一相似度满足第一预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表;
所述相似度模块902,还被配置为当所述第一相似度大于等于所述第二预设相似度阈值时,将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度;
所述映射模块903,还被配置为当所述第二相似度大于等于所述第三预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表。
在本公开实施例中,该方法可以对第一菜单信息和第二菜单信息进行二次相似度的对比,找到正确的菜单即第一菜单信息与其他菜单信息即第二菜单信息的映射表,即将语义或词义相同的菜单映射起来,使得后续在用户搜索菜单的时候可以通过映射表找到菜品,提高了菜单或菜品识别的准确性。
也就是说,通过获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;对第一菜单信息与第二菜单信息进行字符相似度处理,得到第一相似度;当第一相似度满足第一预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表;当第一相似度大于等于第二预设相似度阈值时,将第二菜单信息转化为拼音,对拼音进行编辑距离对比,得到第二相似度;当第二相似度大于等于第三预设相似度阈值时,将第二菜单信息与第一菜单信息进行映射,得到菜单映射表,实现对菜单信息的纠错映射表的生成,使得针对近义词和多义词的菜单的识别的准确率提高。
在本公开实施例中,信息处理装置可以为配送平台对应的后台服务器。针对一个第二菜单信息B,信息处理装置将该一个第二菜单信息B与任意一个第一菜单信息A进行字符相似度的计算,得到第一相似度。当得到的第一相似度满足第一预设相似度阈值时,表征该一个第二菜单信息B对应的正确菜单应为第一菜单信息A。
在本公开实施例中,当得到的第一相似度满足第一预设相似度阈值时,表征该一个第二菜单信息对应的正确菜单应为第一菜单信息A,即菜单映射表中的一个映射关系为第一菜单信息A-一个第二菜单信息B。
其中,第一预设相似度阈值表征相似度极高的阈值,可以直接判定待筛选商户中的某一第二菜单信息B对应的正确菜单为目标商户中的某一第一菜单信息的。第一预设相似度阈值可以为1(归一化后的值),本公开实施例不作限制。
在本公开实施例中,第二预设相似度阈值表征相似度偏高,但还需进一步进行相似度匹配的阈值,其中,第二预设相似度阈值小于第一预设相似度阈值,第二预设相似度阈值应大于0.5(归一化后的值),例如第二预设相似度阈值为0.75,本公开实施例不作限制。
其中,当第一相似度大于等于第二预设相似度阈值时,信息处理装置将第二菜单信息转化为拼音,采用拼音为单位的编辑距离的校验,来找到与某一第二菜单信息对应的正确菜单,即信息处理装置对拼音进行编辑距离对比,得到第二相似度。当第二相似度大于等于第三预设相似度阈值时,信息处理装置将第二菜单信息与第一菜单信息进行映射,得到菜单映射表。即针对一个第二菜单信息C与任意一个第一菜单信息A的字符的相似度为0.8时,信息处理装置将该一个第二菜单信息C与该第一菜单信息A转化为拼音后,进行拼音相似度的计算,得到第二相似度。当得到的第二相似度满足第三预设相似度阈值时,表征该一个第二菜单信息C对应的正确菜单应为第一菜单信息A。
在本公开实施例中,当得到的第二相似度大于等于第三预设相似度阈值时,表征该一个第二菜单信息C对应的正确菜单应为第一菜单信息A,即菜单映射表中的一个映射关系为第一菜单信息A-一个第二菜单信息C。
其中,第三预设相似度阈值小于第一预设相似度阈值,第二预设相似度阈值应大于0.5(归一化后的值),例如第三预设相似度阈值为0.75,本公开实施例不作限制。
示例性的,如图2所示,宫保鸡丁和宫爆鸡丁的拼音均为gongbaojiding,其第二相似度(相似度)为1,雪菜肉丝xuecairousi和雪柴肉丝xuechairousi的第二相似度为0.9166666666666666。
需要说明的是,本公开实施例中,菜单映射表是在对所有的待筛选商户的所有第二菜单信息都处理完后得到的总的映射关系。
在本实施例的一个可选实现方式中,信息处理装置将目标商户对应的第一菜单信息作为正确菜单,通过将第二菜单信息与第一菜单信息进行相似度比较,构造第二菜单中与正确菜单所具有的映射关系,该映射关系就是纠错的对应关系,从而提高了识别的准确性。
在本实施例的一个可选实现方式中,该信息处理装置还包括:接收模块904、搜索模块905和推送模块906(图中未示出);
所述接收模块904,被配置为所述得到所述菜单映射表之后,接收目标用户对目标菜单的搜索请求;
所述搜索模块905,被配置为响应所述搜索请求,从所述菜单映射表中找与所述目标菜单对应的正确菜单信息;以及基于所述正确菜单信息,从所述目标商户搜索出正确商户;
所述推送模块906,被配置为将所述正确商户推送给所述目标用户。
其中,信息处理装置在接收到目标用户在终端上对搜索目标菜单的搜索请求时,响应该搜索请求,可以从已经确定好的菜单映射表中,确定出目标菜单与映射表中的哪一对映射关系匹配,找出其中包含目标菜单的信息的映射关系后,该映射关系中的第一菜单信息就是正确菜单信息。这样信息处理装置就可以从目标商户中将包含该正确菜单信息的正确商户搜索出来了,并反馈给终端,将正确商户推送给目标用户。
在本实施方式中,信息处理装置可以通过映射表将用户搜索的与目标商户中与目标菜单信息匹配的正确商户搜索出来,推荐给目标用户,从而提高了推送的智能性,以及提高目标商户的曝光量。
在本实施例的一个可选实现方式中,如图10所示,所述获取模块901包括:
获取子模块1001,被配置为获取目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息;
过滤子模块1002,被配置为对所述第一原始菜单信息和第二原始菜单信息进行过滤,得到包含菜单关键字的所述第一菜单信息和所述第二菜单信息。
在本实施方式中,信息处理装置事先可以获取已注册商户的原始菜单信息,原始菜单信息中可以包括菜品、菜价,购买数量等等,并且菜单信息的表示中可以有汉字也可以有字母,符号等其他表示方式,本公开实施例不作限制。信息处理装置在获取到目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息后,需要进行数据的过滤,得到只包含每个菜单信息中的关键字的第一菜单信息和第二菜单信息。
其中,过滤的方式可以包括:第一过滤菜品中非汉字的部分,第二过滤菜品规格(比如大份小份中份),第三部过滤菜品单位如(ml、L、kg),第四部过滤菜品中一些修饰词(独家、秘制、正宗),第五部过滤菜品中出现的商户名的关键词。
示例性的,如图5所示的菜品过滤后的菜品名示意。原始菜单信息包括:菜品名称sku_name和销售价格sell_price,在进行了非汉字的过滤,规格的过滤,菜品单位的过滤,以及修饰词的过滤后,得到了过滤后的清洁名称,即菜单信息(第一菜单信息或第二菜单信息)。
在本实施例的一个可选实现方式中,如图11所示,所述信息处理装置还包括:筛选模块907;
所述筛选模块907,被配置为所述将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度之后,当所述第二相似度小于所述第三预设相似度阈值,或者所述第一相似度小于所述第二预设相似度阈值时,对所述目标菜单进行语义筛选,得到所述菜单映射表。
在本公开实施例中,当第二相似度小于第三预设相似度阈值,或者第一相似度小于第二预设相似度阈值时,信息处理装置还可以进一步的对目标菜单进行语义筛选,得到菜单映射表。这是因为有的菜单的词义或语义相同,及时汉字不同,拼音编辑距离较远,也可以当做关联一致的映射关系,从而提高语义不同的识别准确率。
在本实施例的一个可选实现方式中,所述获取模块901,还被配置为获取与所述第一菜单信息的语义满足预设相似度阈值的至少一个词语信息;
所述映射模块903,还被配置为所述得到所述菜单映射表之后,将所述至少一个词语信息与所述第一菜单信息进行映射,更新所述菜单映射表,得到更新后的菜单映射表。
信息处理装置在得到菜单映射表之后,还可以基于语义进行进一步的映射关系的添加,信息处理装置可以先从含有食材关键字的百科篇幅或网络或书籍资料等,进行word2vec处理,得到与食材相似的多个词语信息(词向量),从中选出与第一菜单信息中的食材的语义相似度大于等于预设相似度阈值的至少一个词语信息,将至少一个词语信息与第一菜单信息进行映射,更新菜单映射表,得到更新后的菜单映射表。或者,从与食材相似的多个词语信息中找出最相似的预设个词语信息与第一菜单信息进行映射,得到更新后的菜单映射表。
示例性的,如图8所示,针对第一菜单信息番茄通过word2vec的方式得到的语义最相近的6个词向量可以包括:番茄(0.7807015776634216);新鲜度(0.6680692434310913);烂(0.6581120491027832);metacritic(0.62666916847229);马铃薯(0.6092041730880737);西红柿(0.6072685718536377)。
需要说明的是,信息处理装置找到的语义相近的词语信息可以通过人工运营去重后再进行映射关系的映射,进一步提高语义相近的词语的识别准确率。
示例性的,信息处理装置首先对菜品进行过滤,去掉对相似度判定不利的词,即菜品名先经过,清洗、过滤、去重,对重复菜品名按单个菜品处理,保证菜品相似度。再通过人工选取星选高端商户的菜谱、并通过相似度去重,有运营筛选出准确的菜品,提高菜品映射的准确性。对纠错首先利用字符级的余弦相似度判定、在通过转拼音的编辑距离,减少算法复杂度,提高效率。即首先通过字符级的余弦相似度并把相似度大于0.75小于1的菜品,转换成拼音,并利用编辑距离检验相似度阀值选择为0.75。减小运算的复杂度,并提高准确率。最后进行词向量的关键词映射由利于同义词的转化,在选取词向量语料时,通过选着含有食材关键词的百科文章构造上下文,提高准确率。
总的来说,针对错别字,通过选取北京地区星选商户菜单,并过滤去重,由运营去筛选唯一正确的菜名。通过菜品字符级别的相似度校验筛出具备相似度但名称不同的菜品。通过菜品名转化为拼音,通过编辑距离来判定拼音之间的相似度。设定合理的相似度阀值,来确保映射的准确性。
针对语义相同的不同表述,选择常见的菜品食材、去百度百科上出现关键词的篇章,通过词向量的技术去选取每个食材排名前6的相似度食材,并人工校验。存储到映射关系表中。在映射时通过该映射表做出映射。
本公开还公开了一种电子设备,图12示出根据本公开一实施方式的电子设备的结构框图,如图12所示,所述电子设备1100包括存储器1101和处理器1102;其中,
所述存储器1101用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1102执行以实现上述任一方法步骤。
图13适于用来实现根据本公开实施方式的信息处理方法的计算机系统的结构示意图。
如图13所示,计算机系统1200包括中央处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行上述实施方式中的各种处理。在RAM1203中,还存储有系统1200操作所需的各种程序和数据。CPU1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述信息处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
对所述第一菜单信息与所述第二菜单信息进行字符相似度处理,得到第一相似度;
基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表。
2.根据权利要求1所述的方法,其特征在于,所述预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值;所述基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表,包括:
当所述第一相似度满足所述第一预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表;或者,
当所述第一相似度大于等于所述第二预设相似度阈值时,将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度;
当所述第二相似度大于等于所述第三预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表。
3.根据权利要求2所述的方法,其特征在于,所述得到所述菜单映射表之后,所述方法还包括:
接收目标用户对目标菜单的搜索请求;
响应所述搜索请求,从所述菜单映射表中找与所述目标菜单对应的正确菜单信息;
基于所述正确菜单信息,从所述目标商户搜索出正确商户;
将所述正确商户推送给所述目标用户。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述获取目标商户的第一菜单信息和待筛选商户的第二菜单信息,包括:
获取目标商户的第一原始菜单信息和待筛选商户的第二原始菜单信息;
对所述第一原始菜单信息和第二原始菜单信息进行过滤,得到包含菜单关键字的所述第一菜单信息和所述第二菜单信息。
5.根据权利要求2所述的方法,其特征在于,所述将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度之后,所述方法还包括:
当所述第二相似度小于所述第三预设相似度阈值,或者所述第一相似度小于所述第二预设相似度阈值时,对所述目标菜单进行语义筛选,得到所述菜单映射表。
6.根据权利要求2所述的方法,其特征在于,所述得到所述菜单映射表之后,所述方法还包括:
获取与所述第一菜单信息的语义满足预设相似度阈值的至少一个词语信息;
将所述至少一个词语信息与所述第一菜单信息进行映射,更新所述菜单映射表,得到更新后的菜单映射表。
7.一种信息处理装置,其特征在于,包括:
获取模块,被配置为获取目标商户的第一菜单信息和待筛选商户的第二菜单信息;
相似度模块,被配置为对所述第一菜单信息与所述第二菜单信息进行字符相似度处理,得到第一相似度;
映射模块,被配置为基于预设相似度阈值和所述第一相似度,确定所述第一菜单信息与所述第二菜单信息之间的映射关系,得到菜单映射表。
8.根据权利要求7所述的装置,其特征在于,所述预设相似度阈值包括第一预设相似度阈值、第二预设相似度阈值和第三相似度阈值;
所述映射模块,还被配置为当所述第一相似度满足所述第一预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表;
所述相似度模块,还被配置为当所述第一相似度大于等于所述第二预设相似度阈值时,将所述第二菜单信息转化为拼音,对所述拼音进行编辑距离对比,得到第二相似度;
所述映射模块,还被配置为当所述第二相似度大于等于所述第三预设相似度阈值时,将所述第二菜单信息与所述第一菜单信息进行映射,得到所述菜单映射表。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114907.XA CN110866188A (zh) | 2019-11-14 | 2019-11-14 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114907.XA CN110866188A (zh) | 2019-11-14 | 2019-11-14 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866188A true CN110866188A (zh) | 2020-03-06 |
Family
ID=69653979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911114907.XA Pending CN110866188A (zh) | 2019-11-14 | 2019-11-14 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866188A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323877A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Enriched Search Features Based In Part On Discovering People-Centric Search Intent |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及系统 |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN104102633A (zh) * | 2013-04-01 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种挖掘搜索引擎未召回类纠错词的方法及装置 |
CN106156098A (zh) * | 2015-04-02 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 一种纠错对挖掘方法及系统 |
CN109344387A (zh) * | 2018-08-01 | 2019-02-15 | 北京奇艺世纪科技有限公司 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
-
2019
- 2019-11-14 CN CN201911114907.XA patent/CN110866188A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323877A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Enriched Search Features Based In Part On Discovering People-Centric Search Intent |
CN102915314A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 一种纠错对自动生成方法及系统 |
CN104102633A (zh) * | 2013-04-01 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种挖掘搜索引擎未召回类纠错词的方法及装置 |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN106156098A (zh) * | 2015-04-02 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 一种纠错对挖掘方法及系统 |
CN109344387A (zh) * | 2018-08-01 | 2019-02-15 | 北京奇艺世纪科技有限公司 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512331B (zh) | 一种视频推荐方法及装置 | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
CN106682169B (zh) | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US10204121B1 (en) | System and method for providing query recommendations based on search activity of a user base | |
CN107862027A (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN106682170B (zh) | 一种应用搜索方法和装置 | |
CN109033101A (zh) | 标签推荐方法及装置 | |
CN109002432B (zh) | 同义词的挖掘方法及装置、计算机可读介质、电子设备 | |
US20200272674A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
CN109299219A (zh) | 数据查询方法、装置、电子设备及计算机可读存储介质 | |
EP3289489B1 (en) | Image entity recognition and response | |
CN108304381B (zh) | 基于人工智能的实体建边方法、装置、设备及存储介质 | |
US20120059786A1 (en) | Method and an apparatus for matching data network resources | |
CN110781365B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
US20220207507A1 (en) | Automatic Creation of Master Catalog and Catalog Map for Reconciliation of Merchant Point-of-Sale Catalog and Third-Party Service Catalog | |
US11379669B2 (en) | Identifying ambiguity in semantic resources | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN110866188A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN114661890A (zh) | 一种知识推荐方法、装置、系统及存储介质 | |
CN109284384A (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
WO2016010591A1 (en) | Search engine using name clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |