CN111858838A - 一种菜系标定方法、装置、电子设备和非易失性存储介质 - Google Patents

一种菜系标定方法、装置、电子设备和非易失性存储介质 Download PDF

Info

Publication number
CN111858838A
CN111858838A CN201910271616.5A CN201910271616A CN111858838A CN 111858838 A CN111858838 A CN 111858838A CN 201910271616 A CN201910271616 A CN 201910271616A CN 111858838 A CN111858838 A CN 111858838A
Authority
CN
China
Prior art keywords
merchant
calibrated
vector
information
cuisine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910271616.5A
Other languages
English (en)
Inventor
徐龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN201910271616.5A priority Critical patent/CN111858838A/zh
Publication of CN111858838A publication Critical patent/CN111858838A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及通信技术领域,公开了一种菜系标定方法、装置、电子设备和非易失性存储介质。包括:将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息;将菜系的文本信息输入向量确定模型获取菜系的向量信息;计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合;根据距离集合对待标定商户进行菜系标定。使得能够准确的实现对商户菜系的自动标定。

Description

一种菜系标定方法、装置、电子设备和非易失性存储介质
技术领域
本发明实施例涉及通信技术领域,特别涉及一种菜系标定方法、装置、电子设备和非易失性存储介质。
背景技术
在餐厅外卖领域,商户所经营的菜系通常包括:鲁菜、川菜、粤菜、苏菜、浙菜、闽菜、湘菜和徽菜等,如果商户标明其对应的菜系类型,往往能够显著影响用户在线订餐的选择。
发明人发现相关技术中至少存在如下问题:现有技术中,通常采用人工判断的方式对商户的菜系进行标定,但是由于菜系结构纷繁复杂,如果仅仅通过人工判断方式进行标定,往往容易出现疏忽和误判的情况,从而影响商户菜系标定的准确性。
发明内容
本发明实施方式的目的在于提供一种菜系标定方法、装置、电子设备和非易失性存储介质,使得能够准确的实现对商户菜系的自动标定。
为解决上述技术问题,本发明的实施方式提供了一种菜系标定方法,应用于电子设备,包括以下步骤:将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征;将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个;计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离;根据距离集合对待标定商户进行菜系标定。
本发明的实施方式还提供了一种菜系标定装置,包括:第一确定模块,用于将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征;第二确定模块,用于将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个;距离计算模块,用于计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离;菜系标定模块,用于根据距离集合对待标定商户进行菜系标定。
本发明的实施方式还提供了一种电子设备,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行:将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征;将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个;计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离;根据距离集合对待标定商户进行菜系标定。
本发明的实施方式还提供了一种非易失性存储介质,用于存储计算机可读程序,计算机可读程序用于供计算机执行如上所述的菜系标定方法。
本发明实施方式相对于现有技术而言,主要区别及其效果在于:能够通过向量确定模型获取待标定商户的向量信息以及菜系的向量信息,并根据待标定商户的向量信息与各菜系的向量信息之间的距离,确定出商户所需要标定的菜系,从而能够准确的实现对商户菜系的自动标定。
另外,根据距离集合对待标定商户进行菜系标定,包括:确定距离集合中小于预设阈值的距离所对应的至少一个菜系;根据至少一个菜系对待标定商户进行菜系标定。该实现中,将距离集合中小于预设阈值的距离所对应的至少一个菜系来对待标定商户进行菜系标定,从而使商户所标定的菜系更加准确。
另外,将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:获取样本商户的描述信息,其中,样本商户的数量至少为两个;根据样本商户的描述信息获得样本文本信息,其中,样本文本信息中包括至少两个样本词汇;根据glove算法计算样本文本信息中各样本词汇的向量;根据样本文本信息中各样本词汇以及各样本词汇的向量进行训练,获得向量确定模型,其中,向量确定模型中包括用于表示词汇与词汇向量的存储位置标识的对应关系。该实现中,通过对样本商户的描述信息进行处理获得样本文本信息,通过glove算法获得样本文本信息中各样本词汇的向量,并通过所获得的样本词汇以及样本词汇的向量获得向量确定模型,从而保证了向量确定模型的准确性。
另外,根据样本商户的描述信息获得样本文本信息,包括:对样本商户的描述信息进行分词处理获得样本分词结果;对样本商户的描述信息进行单字符切分处理获得样本切分结果;将样本分词结果和样本切分结果顺次连接获得样本文本信息。
另外,将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:获取待标定商户的描述信息;对待标定商户的描述信息进行分词处理获得分词结果;对待标定商户的描述信息进行单字符切分获得切分结果;将分词结果和切分结果顺次连接获得待标定商户的文本信息。该实现中,通过对待标定商户的描述信息分别进行分词处理和单字符切分处理,并根据分别所得到的分词结果和切分结果获得待标定商户的文本信息,从而保证了所获得的待标定商户的文本信息中由多个与商户相关的词汇组成。
另外,将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,包括:确定待标定商户的文本信息中所包含的商户词汇;根据商户词汇以及所述向量确定模型,获取待标定商户的文本信息中各商户词汇的向量;将待标定商户的文本信息中各商户词汇的向量进行加和求平均操作,获取待标定商户的向量信息。该实现中,通过获取待标定商户的文本信息中各商户词汇的向量,并采用将各商户词汇的向量进行加和求平均的方式获得待标定商户的向量信息,从而使所获得的待标定商户的向量信息更加准确。
另外,将菜系的文本信息输入向量确定模型获取菜系的向量信息,包括:确定菜系的文本信息所对应的菜系词汇;根据菜系词汇以及所述向量确定模型,获取菜系词汇的向量;将菜系词汇的向量作为菜系的向量信息。
另外,计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,包括:计算待标定商户的向量信息与各菜系的向量信息的余弦相似度;根据余弦相似度获得待标定商户的向量信息与各菜系的向量信息之间的距离;根据距离获得距离集合。
另外,待标定商户的描述信息包括:待标定商户的名称、待标定商户的商品名称和待标定商户的用户评价语。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请第一实施方式中的菜系标定方法的流程图;
图2是本申请第二实施方式中的菜系标定方法的流程图;
图3是本申请第三实施方式中菜系标定装置示意图;
图4是本申请第四实施方式中菜系标定装置示意图;
图5是本申请第五实施方式中电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种菜系标定方法,应用于电子设备。该方法的流程图可以如图1所示,具体包括:
步骤101,将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息。
具体的说,待标定商户的向量信息表示待标定商户的文本信息的词汇特征,并且在将待标定商户的文本信息输入向量确定模型之前首先需要获取待标定商户的文本信息。并且在本实施方式中获取待标定商户的文本信息所采用的方式具体为:获取待标定商户的描述信息,对待标定商户的描述信息进行分词处理获得分词结果,对待标定商户的描述信息进行单字符切分获得切分结果,将分词结果和切分结果顺次连接获得待标定商户的文本信息。并且本实施方式中待标定商户的描述信息包括待标定商户的名称、待标定商户的商品名称和待标定商户的用户评价语。
在一个具体实现中,待标定商户的描述信息包括“望湘园湘西霸王蛙很美味”,其中,“望湘园”表示待标定商户的名称,“湘西霸王蛙”表示待标定商户的商品名称,“很美味”表示待标定商户的用户评价语。对待标定商户的描述信息进行分词处理获得分词结果为“望湘园湘西霸王蛙很美味”,另外,对待标定商户的描述信息进行单字符切分获得切分结果为“望湘园湘西霸王蛙很美味”,将分词结果和切分结果顺次连接获得“望湘园湘西霸王蛙很美味望湘园湘西霸王蛙很美味”,将所获得的结果中重复的词汇进行删除获得待标定商户的文本信息为“望湘园湘西霸王蛙很美味望湘园西霸王蛙很美味”。
需要说明的是,本实施方式中仅是以待标定商户的描述信息中包含一个商品和用户评价语为例进行的举例说明,而在实际应用中,待标定商户的描述信息中还可以包括多个商品和多个用户评价语。例如,待标定商户的描述信息还可以包括“望湘西湘西霸王蛙湘味小炒很美味香辣软嫩”,其中,“湘西霸王蛙”和“湘味小炒”分别表示待标定商户的商品名称,“很美味”和“香辣软嫩”分别表示待标定商户的用户评价语,并且当待标定商户的描述信息中包括多个商品和多个用户评价语获得待标定商户的文本信息的方式,与仅包括一个商品和用户评价语获得待标定商户的文本信息的方式大致相同,只是使所获得的待标定商户的文本信息内容更加丰富,以及菜系标定更加准确,因此可以根据用户实际需求确定待标定商户的描述信息中的商品数量和用户评价语的数量,本实施方式中不再进行赘述。
具体的说,在本实施方式中,可以利用所获取的待标定商户的文本信息获取待标定商户的向量信息。采用的具体方式可以为确定待标定商户的文本信息中所包含的商户词汇,根据商户词汇以及向量确定模型,获取待标定商户的文本信息中各商户词汇的向量,其中,向量确定模型中包含词汇与词汇向量的存储位置标识的对应关系。将待标定商户的文本信息中各商户词汇的向量进行加和求平均操作,获取待标定商户的向量信息。例如,向量确定模型中保存了多个样本词汇,并且每一个样本词汇分别通过一个标识与其向量的存储空间建立对应关系,例如,假设样本词汇为“望湘西”,向量确定模型中保存了“望湘西”词汇的向量所位于的向量存储空间的标识为1,并且在标识为1的向量存储空间所存储的向量为[0.65 0.14]。当然,本实施方式中仅是以“望湘西”所对应的标识1为例进行的举例说明,对于其它样本词汇所对应的词汇向量的存储位置标识的原理与此大致相同,本实施方式中不再进行赘述。
在一个具体实现中,确定待标定商户的文本信息为“望湘园湘西霸王蛙很美味望湘园西霸王蛙很美味”,并且待标定商户的文本信息中所包含的商户词汇包括“望湘园”“湘西”“霸王”“蛙”“很美味”“望”“湘”“园”“西”“霸”“王”“蛙”“很”“美”“味”,将商户词汇“望湘园”输入向量确定模型,向量确定模型可以确定出词汇“望湘园”所对应的标识为1,并从标识为1的向量存储空间中获取向量[0.65 0.14]。按照同样的方式,将待标定商户的文本信息中其余词汇分别输入向量确定模型,可以获得其余词汇的向量分别为:湘西:[0.610.62]霸王:[0.31 0.93]蛙:[0.10 0.21]很美味:[0.43 0.01]望:[0.05 0.54]湘:[0.720.13]园:[0.54 0.68]西:[0.98 0.18]霸:[0.86 0.84]王:[0.29 0.56]蛙:[0.70 0.34]很:[0.24 0.19]美:[0.23 0.49]味:[0.54 0.05],将上述所得到的待标定商户的文本信息中各商户词汇的向量进行加和求平均,获取待标定商户的向量信息为X=[0.48 0.39]。
步骤102,将菜系的文本信息输入,向量确定模型获取菜系的向量信息。
具体的说,在本实施方式中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个。菜系的类型是已知的,例如包括:鲁菜、川菜、粤菜、苏菜、浙菜、闽菜、湘菜或徽菜。并且确定菜系的文本信息所对应的菜系词汇分别为:鲁、川、粤、苏、浙、闽、湘或徽。将各菜系词汇分别输入向量确定模型,向量确定模型可以确定出各菜系词汇所对应的存储位置的标识,并从所获得的标识确定出存储位置,并从该存储位置获取各菜系的向量。例如,所获得的各菜系词汇的向量分别为鲁:[0.33 0.12]川:[0.22 0.08]粤:[0.34 0.67]苏:[0.98 0.34]浙:[0.11 0.25]闽:[0.67 0.45]湘:[0.67 0.82]徽:[0.560.67],并且将所获得的菜系词汇的向量作为菜系的向量信息。
需要说明的是,本实施方式中仅是举例进行说明,在实际应用中可以根据需要确定出标记的菜系的类型,本实施方式中并不限于本申请上述实施方式中所列举的菜系的类型。
步骤103,计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合。
具体的说,计算待标定商户的向量信息与各菜系的向量信息的余弦相似度,根据余弦相似度获得待标定商户的向量信息与各菜系的向量信息之间的距离,根据距离获得距离集合,其中距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离。
在一个具体实现中,确定待标定商户的向量信息为X=[0.48 0.39],而鲁菜的向量信息为A=[0.33 0.12]、川菜的向量信息B=[0.22 0.08]、粤菜的向量信息C=[0.340.67]、苏菜的向量信息D=[0.98 0.34]、浙菜的向量信息E=[0.11 0.25]、闽菜的向量信息F=[0.67 0.45]、湘菜的向量信息G=[0.67 0.82]以及徽菜的向量信息H=[0.560.67]。下面以鲁菜为例,计算待标定商户的向量信息X与鲁菜的向量信息A之间的距离:
Figure BDA0002018592900000071
其中,商户的向量信息X与鲁菜的向量信息A之间的余弦相似度为78度,余弦距离为0.208,采用同样的计算原理可以分别获得:商户的向量信息X与川菜的向量信息B之间的余弦相似度为65度,余弦距离为0.422;商户的向量信息X与粤菜的向量信息C之间的余弦相似度为58度,余弦距离为0.530;商户的向量信息X与苏菜的向量信息D之间的余弦相似度为50度,余弦距离为0.642;商户的向量信息X与浙菜的向量信息E之间的余弦相似度为48,余弦距离为0.669;商户的向量信息X与闽菜的向量信息F之间的余弦相似度为35度,余弦距离为0.819;商户的向量信息X与湘菜的向量信息G之间的余弦相似度为15度,余弦距离为0.965;商户的向量信息X与徽菜的向量信息H之间的余弦相似度为37度,余弦距离为0.789。由于余弦相似度越小,余弦距离就越大,对应的表示两个向量之间越相似,实际距离也就越小。因此可以根据余弦相似度确定出余弦距离,并将余弦距离的倒数作为两个向量之间的实际距离,从而所获得的距离集合为{dXA=1000/208dXB=1000/422dXC=1000/530dXD=1000/642dXE=1000/669dXF=1000/819dXG=1000/965dXH=1000/789},其中dXA表示商户的向量信息X与鲁菜的向量信息A之间的实际距离,其它符号的含义与此大致相同,本申请实施方式中不再对其进行赘述。
步骤104,根据距离集合对待标定商户进行菜系标定。
具体的说,在本申请实施方式中,确定距离集合中小于预设阈值的距离所对应的至少一个菜系,根据至少一个菜系对待标定商户进行菜系标定。
例如,所确定的距离集合为{dXA=1000/208dXB=1000/422dXC=1000/530dXD=1000/642dXE=1000/669dXF=1000/819dXG=1000/965dXH=1000/789},而预设阈值的距离为1000/900,并且本实施方式中的预设阈值可以根据实际需求由用户所设定的,当然还可以是根据历史标定记录经过统计所设定的值,本实施方式中并不限定预设阈值的具体获取方式。因此可以确定距离集合中小于预设阈值的距离为1000/965,而该距离所对应的菜系为G即湘菜,因此可以确定待标定商户“望湘园”所对应的菜系类型为湘菜,因此对待标定商户“望湘园”标记为湘菜。当然,本实施方式中是以超过预设阈值的菜系只有一个进行的举例说明,也可能会存在多个超过预设阈值的菜系,在实际应用中可以将超过预设阈值的多个菜系都进行标定,并且说明该待标定商户中所经营的商品并不是单一的菜系,而是包含多个菜系的商品。
与现有技术相比,本实施方式提供的菜系标定方法,能够通过向量确定模型获取待标定商户的向量信息以及菜系的向量信息,并根据待标定商户的向量信息与各菜系的向量信息之间的距离,确定出商户所需要标定的菜系,从而能够准确的实现对商户菜系的自动标定。
本发明的第二实施方式涉及一种菜系标定方法。本实施例在第一实施例的基础上做了进一步改进,具体改进之处为:在将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前增加了获取向量确定模型的步骤。本实施例中的信息传输方法的流程如图2所示。具体的说,在本实施例中,包括步骤201至步骤205,其中步骤204至步骤205与第一实施方式中的步骤104至步骤105大致相同,此处不再赘述,下面主要介绍不同之处,未在本实施方式中详尽描述的技术细节,可参见第一实施例所提供的菜系标定方法,此处不再赘述。
步骤201,获取向量确定模型。
具体的说,在本实施方式中,获取向量确定模型的方式具体可以采用:获取样本商户的描述信息,并且样本商户的数量至少为两个,根据样本商户的描述信息获得样本文本信息,并且样本文本信息中包括至少两个样本词汇,根据glove算法计算样本文本信息中各样本词汇的向量,其中,glove算法是利用待测词汇与语料库中词汇的共同出现的频率来计算待测词汇的向量信息,并且语料库中的词汇是非常庞大的,因此当待测词汇为样本词汇的情况下,可以根据样本词汇与语料库中所共同出现的词汇的频率来计算各样本词汇的向量,由于glove算法现有技术已经比较成熟,并且glove算法并不是本申请的重点,因此本申请实施方式中不再进行赘述。
其中,根据样本文本信息中各样本词汇以及各样本词汇的向量进行训练,获得向量确定模型,向量确定模型中包括用于表示词汇与词汇向量的存储位置标识的对应关系。例如,样本词汇为“很美味”,则建立“很美味”与标识为1的向量存储空间即存储位置匹配关系,并且在标识为1的向量存储空间存储的向量为[0.65 0.14]。因此只要输入任意一个词汇,向量确定模型就可以确定该词汇所对应的存储位置的标识,并通过该标识所对应的存储位置获取该词汇所对应的向量,通过建立词汇与词汇向量的存储位置标识的对应关系,可以进一步节省向量确定模型的存储空间,从而提高词汇向量获取的效率。当然,本实施方式是以一个样本词汇为例进行的说明,而在实际应用中向量确定模型中几乎涵盖了在线订餐领域的全部词汇。
其中,在根据样本商户的描述信息获得样本文本信息时,具体采用对样本商户的描述信息进行分词处理获得样本分词结果,对样本商户的描述信息进行单字符切分处理获得样本切分结果,将样本分词结果和样本切分结果顺次连接获得样本文本信息。
需要说明的是,本申请实施方式中获得样本文本信息的方式与第一实施方式中获得待标定商户的文本信息的方式大致相同,因此本申请实施方式中不再进行赘述。
在步骤201之后,执行步骤202至步骤205。
与现有技术相比,本实施方式提供的菜系标定方法,能够通过向量确定模型获取待标定商户的向量信息以及菜系的向量信息,并根据待标定商户的向量信息与各菜系的向量信息之间的距离,确定出商户所需要标定的菜系,从而能够准确的实现对商户菜系的自动标定。并且通过样本商户的描述信息中的所获得的样本词汇以及样本词汇的向量获得向量确定模型,从而保证了向量确定模型的准确性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明的第三实施方式涉及一种菜系标定装置,如图3所示,该装置包括:第一确定模块31、第二确定模块32、距离计算模块33和菜系标定模块34。
其中,第一确定模块31,用于将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征。
第二确定模块32,用于将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个。
距离计算模块33,用于计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离。
菜系标定模块34,用于根据距离集合对待标定商户进行菜系标定。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明的第四实施方式涉及一种菜系标定装置,如图4所示为本实施例中菜系标定装置的示意图,本实施例在第三实施例的基础上做了进一步改进,具体改进之处为增加了模型获得模块30。
其中,模型获得模块30,用于获得向量确定模型。
第一确定模块31,用于将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征。
第二确定模块32,用于将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个。
距离计算模块33,用于计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离。
菜系标定模块34,用于根据距离集合对待标定商户进行菜系标定。
不难发现,本实施方式为与第二实施方式相对应的装置实施例,本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明的第五实施方式涉及一种电子设备,如图5所示,该电子设备包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行以实现:
将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,待标定商户的向量信息表示待标定商户的文本信息的词汇特征;将菜系的文本信息输入向量确定模型获取菜系的向量信息,其中,菜系的向量信息表示菜系的文本信息的词汇特征,并且菜系的数量至少为两个;计算待标定商户的向量信息与各菜系的向量信息之间的距离并获得距离集合,其中,距离集合中包含待标定商户的向量信息与各菜系的向量信息之间的距离;根据距离集合对待标定商户进行菜系标定。
具体地,该电子设备包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的菜系标定方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器502,这些远程存储器502可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的菜系标定方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的菜系标定方法。
本申请的第六实施方式涉及一种非易失性存储介质,该非易失性存储介质中存储有计算机程序,计算机可读程序用于供计算机执行本发明实施例一或实施例二中涉及的菜系标定方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本申请实施例公开了A1.一种菜系标定方法,包括:
将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离集合对所述待标定商户进行菜系标定。
A2.根据A1所述的菜系标定方法,所述根据所述距离集合对所述待标定商户进行菜系标定,包括:
确定所述距离集合中小于预设阈值的距离所对应的至少一个菜系;
根据所述至少一个菜系对所述待标定商户进行菜系标定。
A3.根据A1所述的菜系标定方法,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取样本商户的描述信息,其中,所述样本商户的数量至少为两个;
根据所述样本商户的描述信息获得样本文本信息,其中,所述样本文本信息中包括至少两个样本词汇;
根据glove算法计算所述样本文本信息中各所述样本词汇的向量;
根据所述样本文本信息中各所述样本词汇以及各所述样本词汇的向量进行训练,获得所述向量确定模型,其中,所述向量确定模型中包括用于表示词汇与词汇向量的存储位置标识的对应关系。
A4.根据A3所述的菜系标定方法,所述根据所述样本商户的描述信息获得样本文本信息,包括:
对所述样本商户的描述信息进行分词处理获得样本分词结果;
对所述样本商户的描述信息进行单字符切分处理获得样本切分结果;
将所述样本分词结果和所述样本切分结果顺次连接获得所述样本文本信息。
A5.根据A4所述的菜系标定方法,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取所述待标定商户的描述信息;
对所述待标定商户的描述信息进行分词处理获得分词结果;
对所述待标定商户的描述信息进行单字符切分获得切分结果;
将所述分词结果和所述切分结果顺次连接获得所述待标定商户的文本信息。
A6.根据A5所述的菜系标定方法,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,包括:
确定所述待标定商户的文本信息中所包含的商户词汇;
根据所述商户词汇以及所述向量确定模型,获取所述待标定商户的文本信息中各商户词汇的向量;
将所述待标定商户的文本信息中各商户词汇的向量进行加和求平均,获取所述待标定商户的向量信息。
A7.根据A4所述的菜系标定方法,所述将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,包括:
确定所述菜系的文本信息所对应的菜系词汇;
根据所述菜系词汇以及所述向量确定模型,获取所述菜系词汇的向量;
将所述菜系词汇的向量作为所述菜系的向量信息。
A8.根据A1所述的菜系标定方法,所述计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,包括:
计算所述待标定商户的向量信息与各所述菜系的向量信息的余弦相似度;
根据所述余弦相似度获得所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离获得所述距离集合。
A9.根据A5至A8所述的菜系标定方法,所述待标定商户的描述信息包括:所述待标定商户的名称、所述待标定商户的商品名称和所述待标定商户的用户评价语。
本申请实施例公开了B1.一种菜系标定装置,包括:
第一确定模块,用于将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
第二确定模块,用于将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
距离计算模块,用于计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
菜系标定模块,用于根据所述距离集合对所述待标定商户进行菜系标定。
本申请实施例公开了C1.一种电子设备,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行:
将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离集合对所述待标定商户进行菜系标定。
C2.根据C1所述的电子设备,所述根据所述距离集合对所述待标定商户进行菜系标定,包括:
确定所述距离集合中小于预设阈值的距离所对应的至少一个菜系;
根据所述至少一个菜系对所述待标定商户进行菜系标定。
C3.根据C1所述的电子设备,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取样本商户的描述信息,其中,所述样本商户的数量至少为两个;
根据所述样本商户的描述信息获得样本文本信息,其中,所述样本文本信息中包括至少两个样本词汇;
根据glove算法计算所述样本文本信息中各所述样本词汇的向量;
根据所述样本文本信息中各所述样本词汇以及各所述样本词汇的向量进行训练,获得所述向量确定模型,其中,所述向量确定模型中包括用于表示词汇与词汇向量的存储位置标识的对应关系。
C4.根据C3所述的电子设备,所述根据所述样本商户的描述信息获得样本文本信息,包括:
对所述样本商户的描述信息进行分词处理获得样本分词结果;
对所述样本商户的描述信息进行单字符切分处理获得样本切分结果;
将所述样本分词结果和所述样本切分结果顺次连接获得所述样本文本信息。
C5.根据C4所述的电子设备,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取所述待标定商户的描述信息;
对所述待标定商户的描述信息进行分词处理获得分词结果;
对所述待标定商户的描述信息进行单字符切分获得切分结果;
将所述分词结果和所述切分结果顺次连接获得所述待标定商户的文本信息。
C6.根据C5所述的电子设备,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,包括:
确定所述待标定商户的文本信息中所包含的商户词汇;
根据所述商户词汇以及所述向量确定模型,获取所述第一文本中各商户词汇的向量;
将所述第一文本中各商户词汇的向量进行加和求平均,获取所述待标定商户的向量信息。
C7.根据C4所述的电子设备,所述将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,包括:
确定所述菜系的文本信息所对应的菜系词汇;
根据所述菜系词汇以及所述向量确定模型,获取所述菜系词汇的向量;
将所述菜系词汇的向量作为所述菜系的向量信息。
C8.根据C1所述的电子设备,所述计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,包括:
计算所述待标定商户的向量信息与各所述菜系的向量信息的余弦相似度;
根据所述余弦相似度获得所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离获得所述距离集合。
C9.根据C5至C8任一项所述的电子设备,所述待标定商户的描述信息包括:所述待标定商户的名称、所述待标定商户的商品名称和所述待标定商户的用户评价语。
本申请实施例公开了D1.一种非易失性存储介质,用于存储有计算机可读程序,所述计算机可读程序用于供计算机执行如A1至A9中任一项所述的菜系标定方法。

Claims (10)

1.一种菜系标定方法,其特征在于,应用于电子设备,包括:
将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离集合对所述待标定商户进行菜系标定。
2.根据权利要求1所述的菜系标定方法,其特征在于,所述根据所述距离集合对所述待标定商户进行菜系标定,包括:
确定所述距离集合中小于预设阈值的距离所对应的至少一个菜系;
根据所述至少一个菜系对所述待标定商户进行菜系标定。
3.根据权利要求1所述的菜系标定方法,其特征在于,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取样本商户的描述信息,其中,所述样本商户的数量至少为两个;
根据所述样本商户的描述信息获得样本文本信息,其中,所述样本文本信息中包括至少两个样本词汇;
根据glove算法计算所述样本文本信息中各所述样本词汇的向量;
根据所述样本文本信息中各所述样本词汇以及各所述样本词汇的向量进行训练,获得所述向量确定模型,其中,所述向量确定模型中包括用于表示词汇与词汇向量的存储位置标识的对应关系。
4.根据权利要求3所述的菜系标定方法,其特征在于,所述根据所述样本商户的描述信息获得样本文本信息,包括:
对所述样本商户的描述信息进行分词处理获得样本分词结果;
对所述样本商户的描述信息进行单字符切分处理获得样本切分结果;
将所述样本分词结果和所述样本切分结果顺次连接获得所述样本文本信息。
5.根据权利要求4所述的菜系标定方法,其特征在于,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息之前,还包括:
获取所述待标定商户的描述信息;
对所述待标定商户的描述信息进行分词处理获得分词结果;
对所述待标定商户的描述信息进行单字符切分获得切分结果;
将所述分词结果和所述切分结果顺次连接获得所述待标定商户的文本信息。
6.根据权利要求5所述的菜系标定方法,其特征在于,所述将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,包括:
确定所述待标定商户的文本信息中所包含的商户词汇;
根据所述商户词汇以及所述向量确定模型,获取所述待标定商户的文本信息中各商户词汇的向量;
将所述待标定商户的文本信息中各商户词汇的向量进行加和求平均,获取所述待标定商户的向量信息。
7.根据权利要求4所述的菜系标定方法,其特征在于,所述将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,包括:
确定所述菜系的文本信息所对应的菜系词汇;
根据所述菜系词汇以及所述向量确定模型,获取所述菜系词汇的向量;
将所述菜系词汇的向量作为所述菜系的向量信息。
8.一种菜系标定装置,其特征在于,包括:
第一确定模块,用于将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
第二确定模块,用于将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
距离计算模块,用于计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
菜系标定模块,用于根据所述距离集合对所述待标定商户进行菜系标定。
9.一种电子设备,其特征在于,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行:
将待标定商户的文本信息输入向量确定模型获取待标定商户的向量信息,其中,所述待标定商户的向量信息表示所述待标定商户的文本信息的词汇特征;
将菜系的文本信息输入所述向量确定模型获取菜系的向量信息,其中,所述菜系的向量信息表示所述菜系的文本信息的词汇特征,并且所述菜系的数量至少为两个;
计算所述待标定商户的向量信息与各所述菜系的向量信息之间的距离并获得距离集合,其中,所述距离集合中包含所述待标定商户的向量信息与各所述菜系的向量信息之间的距离;
根据所述距离集合对所述待标定商户进行菜系标定。
10.一种非易失性存储介质,用于存储有计算机可读程序,其特征在于,所述计算机可读程序用于供计算机执行如权利要求1至7中任一项所述的菜系标定方法。
CN201910271616.5A 2019-04-04 2019-04-04 一种菜系标定方法、装置、电子设备和非易失性存储介质 Pending CN111858838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910271616.5A CN111858838A (zh) 2019-04-04 2019-04-04 一种菜系标定方法、装置、电子设备和非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910271616.5A CN111858838A (zh) 2019-04-04 2019-04-04 一种菜系标定方法、装置、电子设备和非易失性存储介质

Publications (1)

Publication Number Publication Date
CN111858838A true CN111858838A (zh) 2020-10-30

Family

ID=72951687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910271616.5A Pending CN111858838A (zh) 2019-04-04 2019-04-04 一种菜系标定方法、装置、电子设备和非易失性存储介质

Country Status (1)

Country Link
CN (1) CN111858838A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107704521A (zh) * 2017-09-07 2018-02-16 北京零秒科技有限公司 一种问答处理服务器、客户端以及实现方法
CN108563782A (zh) * 2018-04-25 2018-09-21 平安科技(深圳)有限公司 商品信息格式处理方法、装置、计算机设备和存储介质
CN108595418A (zh) * 2018-04-03 2018-09-28 上海透云物联网科技有限公司 一种商品分类方法及系统
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和系统
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107704521A (zh) * 2017-09-07 2018-02-16 北京零秒科技有限公司 一种问答处理服务器、客户端以及实现方法
CN108595418A (zh) * 2018-04-03 2018-09-28 上海透云物联网科技有限公司 一种商品分类方法及系统
CN108563782A (zh) * 2018-04-25 2018-09-21 平安科技(深圳)有限公司 商品信息格式处理方法、装置、计算机设备和存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和系统

Similar Documents

Publication Publication Date Title
CN110766096A (zh) 视频分类方法、装置及电子设备
CN111198988B (zh) 业务推荐方法、训练方法、装置、计算机设备和存储介质
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN113360711B (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN108920665A (zh) 基于网络结构和评论文本的推荐评分方法及装置
CN114092963A (zh) 关键点检测及模型训练方法、装置、设备和存储介质
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
CN110706055A (zh) 商品信息推送方法及装置、存储介质、计算机设备
CN110909168A (zh) 知识图谱的更新方法和装置、存储介质及电子装置
CN110555093B (zh) 文本匹配方法、装置及设备
CN114419035A (zh) 产品识别方法、模型训练方法、装置和电子设备
CN111858838A (zh) 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
CN113515932B (zh) 处理问答信息的方法、装置、设备和存储介质
CN111368860A (zh) 重定位方法及终端设备
CN116295466A (zh) 地图生成方法、装置、电子设备、存储介质、及车辆
US20220284695A1 (en) Learning device, search device, learning method, search method, learning program, and search program
CN113850523A (zh) 基于数据补全的esg指数确定方法及相关产品
CN113672389A (zh) 一种服务器兼容方法、系统、设备及计算机可读存储介质
CN109191192B (zh) 数据估算方法、装置和计算机可读存储介质
CN113569070A (zh) 图像检测方法和装置、电子设备、存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备
CN112580620A (zh) 标志图片处理方法、装置、设备和介质
CN110414579A (zh) 元数据模型合标性检查方法及装置、存储介质
CN110941601A (zh) 确定指标标准口径的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination