CN109472025B - 菜品名称提取方法及装置 - Google Patents

菜品名称提取方法及装置 Download PDF

Info

Publication number
CN109472025B
CN109472025B CN201811259894.0A CN201811259894A CN109472025B CN 109472025 B CN109472025 B CN 109472025B CN 201811259894 A CN201811259894 A CN 201811259894A CN 109472025 B CN109472025 B CN 109472025B
Authority
CN
China
Prior art keywords
dish name
dish
name
prediction model
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811259894.0A
Other languages
English (en)
Other versions
CN109472025A (zh
Inventor
邓哲宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koukouxiangchuan Beijing Network Technology Co ltd
Original Assignee
Koukouxiangchuan Beijing Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koukouxiangchuan Beijing Network Technology Co ltd filed Critical Koukouxiangchuan Beijing Network Technology Co ltd
Priority to CN201811259894.0A priority Critical patent/CN109472025B/zh
Publication of CN109472025A publication Critical patent/CN109472025A/zh
Application granted granted Critical
Publication of CN109472025B publication Critical patent/CN109472025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种菜品名称提取方法及装置。其中,方法包括:获取待提取的菜名字段;将待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,菜名预测模型为基于命名实体识别的预测模型;获取菜名预测模型输出的菜名预测结果,该菜名预测结果中包含有与待提取的菜名字段对应的至少一个候选菜品名称;根据至少一个候选菜品名称对应的菜名指标,确定与待提取的菜名字段对应的菜品名称。本方案通过命名实体识别的预测模型对菜名字段进行菜名预测,并根据预测结果确定最终的菜品名称,从而可充分结合菜名字段的上下文进行菜名提取,提高菜品名称的提取精度及提取效率;并且可避免现有技术中需构建庞大的菜品库而引起的人工成本高的弊端。

Description

菜品名称提取方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种菜品名称提取方法及装置。
背景技术
随着科技及社会的不断进步,餐饮行业得以快速发展。菜品作为餐饮行业中一重要指标,关于其相关数据的研究也越来越受到人们重视。人们在对菜品数据进行分析的过程中,通常需从大量的菜品数据中分别提取出每条数据相应的菜品名称,基于提取出的菜品名称来进行菜品销量统计等菜品数据的分析。
然而,目前菜品的描述方式极其丰富,不同店铺,或同一店铺不同时期,又或者不同用户对同一菜品的描述方式均存在差异,从而增大菜品名称的提取难度。以菜品“红烧肉”为例,店铺A将该菜品描述为“大份红烧肉”,店铺B在某一时刻对其描述方式为“最正宗红烧肉”,而店铺B在另一时刻对其描述方式为“今日特价-红烧肉(必点)”,而用户C也可对该菜品进行评价“红烧肉一般般”。
为解决因菜品描述方式多样化而引起的菜品名称提取难度大的问题,申请公布号为CN108596789A的中国专利申请提供了一种菜品标准化方法,即预先构建一菜品库,根据菜品数据与菜品库中菜品名称的相似度,将菜品库中的某一菜品名称作为该条菜品数据所对应的菜品名称。然而,采用该方法,需人工构建庞大的菜品库,从而提高人工成本,降低菜品名称提取效率,且菜品库无法适应不断发展丰富的菜品数据;并且,该方法无法结合菜品信息的上下文语境,从而使得误判率较高;此外,CN108596789A中采用的相似度判断方法,易将名称相近但非同类菜品识别为同一菜品,如将辣椒炒肉与胡椒炒肉判定为同一菜品,从而降低菜品的提取精度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的菜品名称提取方法及装置。
根据本发明的一个方面,提供了一种菜品名称提取方法,包括:
获取待提取的菜名字段;
将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
根据至少一个候选菜品名称对应的菜名指标,确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量。
可选的,所述将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中进一步包括:
对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
可选的,所述对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串进一步包括:
根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串。
可选的,在所述将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中之前,所述方法还包括:
获取菜名字段样本;
为所述菜名字段样本配置对应的标注;
将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
可选的,所述为所述菜名字段样本配置对应的标注进一步包括:
对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;
将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;
根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
可选的,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
可选的,所述将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配进一步包括:将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
可选的,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
根据本发明的另一方面,提供了一种菜品名称提取装置,包括:
第一获取模块,适于获取待提取的菜名字段;
预测模块,适于将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
第二获取模块,适于获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
确定模块,适于根据至少一个候选菜品名称对应的菜名指标,确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量。
可选的,所述装置还包括:分割模块,适于对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
所述预测模块进一步适于:将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
可选的,所述分割模块进一步适于:根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串。
可选的,所述装置还包括:第三获取模块,适于获取菜名字段样本;
标注模块,适于为所述菜名字段样本配置对应的标注;
训练模块,适于将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
可选的,所述标注模块进一步适于:对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;
将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;
根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
可选的,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
可选的,所述标注模块进一步适于:将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
可选的,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述菜品名称提取方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述菜品名称提取方法对应的操作。
根据本发明提供的菜品名称提取方法及装置,首先获取待提取的菜名字段;并将待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,菜名预测模型为基于命名实体识别的预测模型;获取菜名预测模型输出的菜名预测结果,其中,菜名预测结果中包含有与待提取的菜名字段对应的至少一个候选菜品名称;并根据至少一个候选菜品名称对应的菜名指标,确定与待提取的菜名字段对应的菜品名称。本方案中通过命名实体识别的预测模型对菜名字段进行菜名预测,并根据预测结果确定最终的菜品名称,从而可充分结合菜名字段的上下文进行菜名提取,提高菜品名称的提取精度及提取效率;并且可避免现有技术中需构建庞大的菜品库而引起的人工成本高的弊端;且本方案根据至少一个候选菜品名称所对应的至少一个菜品指标,从至少一个候选菜品名称确定出与待提取的菜名字段对应的菜品名称,从而又进一步地提升了提取出的菜品名称的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例提供的一种菜品名称提取方法的流程示意图;
图2示出了根据本发明另一个实施例提供的一种菜品名称提取方法的流程示意图;
图3示出了根据本发明一个实施例提供的一种菜品名称提取装置的功能结构示意图;
图4示出了根据本发明一个实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例提供的一种菜品名称提取方法的流程示意图。如图1所示,该方法包括:
步骤S101,获取待提取的菜名字段。
其中,待提取的菜名字段为商家或用户等对菜品名称的描述字段,如“今日特价-红烧肉(必点)”,“红烧肉一般般”等等。通过本实施例的菜品名称提取方法,可准确地确定出与待提取的菜名字段相对应的菜品名称。
可选的,在实际的实施过程中,待提取的菜名字段往往来源于某一条或多条源数据。例如,商家针对菜品名称的描述字段“今日特价-红烧肉(必点)”可来源于商家的销售策略数据,用户针对菜品名称的描述字段“红烧肉一般般”可来源于用户针对商家的评价数据。所以,本实施例在获取待提取的菜名字段时,可从一条或多条源数据中确定出待提取的菜名字段。例如,商家的菜品销售数据中,通常以菜名及价格的列表形式呈现,则可直接将菜名列中的字段作为待提取的菜名字段;或者,也可通过预设的识别方法,从源数据中抽取出待提取的菜名字段;又或者,可不对源数据进行处理而将其直接作为待提取的菜名字段。总之,本发明对获取待提取的菜名字段的方式不做限定。
步骤S102,将待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,菜名预测模型为基于命名实体识别的预测模型。
为准确地确定与待提取的菜名字段对应的菜品名称,本实施例预先训练有基于命名实体识别的菜名预测模型。其中,命名实体识别(Named Entities Recognition,NER)是指识别文本中的特定意义的实体,主要包括人名,地名,机构名、专有名词等。本发明创造性地利用机器学习的方法,基于命名实体识别训练出菜名预测模型,以提高菜名提取的准确性。并且,本实施例对基于命名实体识别的菜名预测模型的具体训练方法等不作限定,本领域技术人员可根据实际的需求自行选择合适的训练方法。
在训练得到菜名预测模型之后,可将获取的待提取的菜名字段输入该菜名预测模型中,以获得菜名预测结果。
步骤S103,获取菜名预测模型输出的菜名预测结果,其中,菜名预测结果中包含有与待提取的菜名字段对应的至少一个候选菜品名称。
将待提取的菜名字段输入该菜名预测模型后,可获得与该待提取的菜名字段相对应的至少一个候选菜品名称,从而为后续确定与待提取的菜名字段相对应的菜品名称提供基础。
步骤S104,根据至少一个候选菜品名称对应的菜名指标,确定与待提取的菜名字段对应的菜品名称。
本实施例在获得菜名预测结果,即获得与待提取的菜名字段对应的至少一个候选菜品名称之后,并非将该预测结果直接作为最终的菜品名称提取结果,而是进一步地根据至少一个候选菜品名称对应的菜名指标,从至少一个候选菜品名称中选取一候选菜品名称作为与待提取的菜名字段对应的菜品名称,从而进一步提升菜品名称提取的准确度。其中,至少一个候选菜品名称对应的菜名指标包括:至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量。该预设概率值可由菜名预测模型输出的菜名预测结果中获得,菜名长度具体为候选菜品名称的字符长度,店铺数量具体为该候选菜品名称所覆盖的店铺数量,例如,若店铺数量为5,则表明有5个店铺中出现有该候选菜品名称;同理,订单数量具体为该候选菜品名称所覆盖的订单数量。
由此可见,本实施例中创造性地利用机器学习的方法,基于命名实体识别训练得到菜名预测模型,并将待提取的菜名字段输入该菜名预测模型中以获得菜名预测结果,进一步根据至少一个候选菜品名称对应的菜名指标从至少一个候选菜品名称中选取最终的菜品名称作为待提取的菜名字段对应的菜品名称。由此避免了现有技术中需构建庞大的菜品库而引起的人工成本高,效率低的弊端;并且通过基于命名实体识别的菜名预测模型的预测,可充分考虑菜名字段的上下文关联,提升菜名预测结果的准确性,从而为最终准确提取菜品名称提供基础;并基于菜名预测模型输出的菜名预测结果根据至少一个候选菜品名称对应的菜名指标,对至少一个候选菜品名称进行进一步地选取,从而进一步地提高提取出的菜品名称的准确度。
图2示出了根据本发明另一个实施例提供的一种菜品名称提取方法的流程示意图。如图2所示,该方法包括:
步骤S201,预先训练得到菜名预测模型,其中,菜名预测模型为基于命名实体识别的预测模型。
本实施例创造性地基于命名实体识别训练获得菜名预测模型,其中,菜名预测模型可具体通过以下步骤训练获得:
首先,获取菜名字段样本,该菜名字段样本可来源于商家的销售数据、和/或用户的点评数据等等。本领域技术人员可综合根据所需菜名预测模型的预测准确度及训练时间选择合适容量的菜名字段样本。可选的,在获取得到菜名字段样本之后,为简化菜名预测模型结构,提升训练效率及提高菜名预测模型的预测准确度,可进一步地对获取的菜名字段样本进行字符串分割,获得至少一个菜名样本子串。具体可根据分割符号对待提取的菜名字段进行字符串分割,例如,某一菜名字段样本数据“解馋版-【老太太的酱爆鲜虾】”,在根据分割符号进行字符串分割之后,可获得菜名样本子串“解馋版”及菜名样本子串“老太太的酱爆鲜虾”。
进一步地,为菜名字段样本配置对应的标注。其中,标注中包含有标识菜名字段样本中至少一个字符与菜名的相关程度的信息。例如,若菜名字段样本中某字符与菜名无关,则为该字符标注“s”,若某字符与菜名相关,且该字符为菜名的起始字符,则为该字符标注“b”。在具体的标注过程中,为避免人工标注带来的标注效率低,标注成本高的弊端,本实施例可预先构建一小量级的标注词库,将菜名字段样本与预先构建的标注词库进行匹配,根据匹配结果自动为菜名字段样本配置对应的标注。若上述菜名字段样本分割为至少一个菜名样本子串,则将至少一个菜名样本子串分别与预先构建的标注词库进行匹配(例如,可将至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配),根据匹配结果,为至少一个菜名样本子串配置对应的标注。其中,标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。可选的,为进一步提高整体的菜品名称提取效率,本实施例中标注词库也可通过聚类算法等自动构建,例如,可将部分菜品数据转换为对应的词向量,通过相应的聚类算法,确定对应的种子词,基于获得的种子词生成标注词库。
以下通过一具体示例来阐明为菜名字段样本配置对应的标注的实施过程:某一菜名字段样本数据“解馋版-【老太太的酱爆鲜虾】”,在进行字符串分割之后,获得菜名样本子串“解馋版”及菜名样本子串“老太太的酱爆鲜虾”。分别将菜名样本子串“解馋版”及“老太太的酱爆鲜虾”与预先构建的标注词库中的词进行匹配,若该两个菜名样本子串所包含的字符中仅有“酱爆鲜虾”与标注词库中的词匹配,则可为菜名样本子串“解馋版”配置标注“sss”,为菜名样本子串“老太太的酱爆鲜虾”配置标注“ssssbmme”,其中,“s”表示对应字符与菜名无关,“b”表示对应字符为菜名的首字符,“m”表示对应字符为菜名的中间字符,“e”标识对应字符为菜名的尾字符。
在获得菜名字段样本的标注之后,将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。其中,菜名预测模型可以为基于BiLSTM(Bi-LongShort Term Memory,双向长短期记忆网络)+crf(Conditional Random Field,条件随机场)的命名实体识别的预测模型,以保障训练得到的菜名预测模型具有较高的预测精度。
步骤S202,获取待提取的菜名字段,并对待提取的菜名字段进行字符串分割,获得至少一个菜名子串。
在获取待提取的菜名字段之后,为提高最终的菜名提取精度,本实施例进一步对待提取的菜名字段进行字符串分割。其中,本实施例对菜名字段的具体分割方法不做限定,例如,可根据分割符号对待提取的菜名字段进行字符串分割,获得至少一个菜名子串。具体详见步骤S201中相应部分的描述,本步骤不做赘述。
可选的,为进一步提高菜名提取效率,规避待提取的菜名字段中某些非菜名字符的干扰,过滤脏数据,提升菜名提取精度,本步骤在对待提取的菜名字段进行字符串分割过程中,或分割之后,可对待提取的菜名字段中的干扰信息进行过滤,具体地可根据预设符号来对干扰信息进行过滤。举例来说,待提取的菜名字段“小份黄焖鸡米饭(含米饭一份)--微辣”,由于在实际的实施过程中,括号中的字段信息通常为辅助信息而非真正的菜名信息,所以,可将该括号中的字段直接过滤,从而最终获得的有效菜名子串为“小份黄焖鸡米饭”及“微辣”。
步骤S203,将至少一个菜名子串分别输入至预先训练得到的菜名预测模型中,并获取菜名预测模型输出的菜名预测结果,其中,菜名预测结果中包含有与待提取的菜名字段对应的至少一个候选菜品名称。
将步骤S202获得的至少一个菜名子串分别输入至预先训练得到的菜名预测模型中,分别获得与至少一个菜名子串对应的至少一个候选菜品名称,从而获得与待提取的菜名字段对应的菜名预测结果。其中,菜名预测结果中除包含有与待提取的菜名字段对应的至少一个候选菜品名称之外,还包含有与各个候选菜品名称相对应的预测概率值。
步骤S204,根据至少一个候选菜品名称对应的菜名指标,确定与待提取的菜名字段对应的菜品名称。
具体地,根据每个候选菜品名称对应的至少一个菜名指标,从至少一个候选菜品名称中确定与待提取的菜名字段对应的菜品名称。其中,菜名指标具体为每个候选菜品名称对应的预设概率值、每个候选菜品名称的菜名长度、每个候选菜品名称所对应的店铺数量、和/或每个候选菜品名称所对应的订单数量等。
可选的,可分别为各个菜名指标配置相应的权重,从而根据每个候选菜品名称对应的至少一个菜名指标及菜名指标对应的权重,确定与待提取的菜名字段对应的菜品名称。
在一种可选的实施方式中,可优先根据权重最高的菜名指标来确定菜名字段对应的菜品名称,在当至少两个候选菜品名称的权重最高的菜名指标值相同时,进一步比较权重次高的菜名指标,以此类推,最终获得与待提取的菜名字段对应的菜品名称。举例来说,各个菜名指标的权重关系为:每个候选菜品名称对应的预测概率值>每个候选菜品名称的菜名长度>每个候选菜品名称所对应的店铺数量>每个候选菜品名称所对应的订单数量,若步骤S203中菜名预测结果为候选菜品名称“黄焖鸡米饭”,预设概率值0.9;以及,候选菜品名称“微辣”,预测概率值0.4,则首先根据权重最高的预测概率值确定菜名字段对应的菜品名称,即将预测概率值最高的候选菜名名称作为待提取的菜品字段对应的菜品名称,则将“黄焖鸡米饭”作为待提取的菜品字段“小份黄焖鸡米饭(含米饭一份)--微辣”的菜品名称。而若候选菜品名称“黄焖鸡米饭”与候选菜品名称“微辣”的预测概率值均为0.8,则进一步比较两者的菜名长度,即选择菜名长度较长的候选菜品名称作为待提取的菜品字段的菜品名称,则将“黄焖鸡米饭”作为待提取的菜品字段“小份黄焖鸡米饭(含米饭一份)--微辣”的菜品名称。
在另一种可选的实施方式中,可对每个候选菜品名称对应的至少一个菜名指标中的各个菜名指标进行归一化处理,并根据归一化之后的菜名指标与权重的加权求和结果,确定与待提取的菜名字段对应的菜品名称。举例来说,若每个候选菜品名称对应的预测概率值、每个候选菜品名称的菜名长度、每个候选菜品名称所对应的店铺数量、及每个候选菜品名称所对应的订单数量的权重值如表1所示,候选菜品名称“黄焖鸡米饭”及候选菜品名称“微辣”的各项指标值仍如表1所示,其中,候选菜品名称“黄焖鸡米饭”所对应的店铺数量200,表明200个店铺中均出现有“黄焖鸡米饭”字段,对应的订单数量为500,表明500份订单中均出现有“黄焖鸡米饭”字段,表1中括号内为各菜名指标对应的归一化结果,则候选菜品名称“黄焖鸡米饭”归一化后的各指标值加权求和结果为:0.9*0.8+5/7*0.1+2/3*0.07+1/3*0.03=0.85;候选菜品名称“微辣”归一化后的各指标值加权求和结果为:0.1*0.8+2/7*0.1+1/3*0.07+2/3*0.03=0.15,则将候选菜品名称“黄焖鸡米饭”作为与待提取的菜名字段对应的菜品名称。
表1
概率值 菜名长度 店铺数量 订单数量
权重 0.8 0.1 0.07 0.03
黄焖鸡米饭 0.9(0.9) 5(5/7) 200(2/3) 500(1/3)
微辣 0.1(0.1) 2(2/7) 100(1/3) 1000(2/3)
由此可见,本实施例中创造性地利用机器学习的方法,基于命名实体识别训练得到菜名预测模型,并根据待提取的菜名字段输入至菜名预测模型后获得的菜名预测结果,确定与待提取的菜名字段对应的菜品名称。由此避免了现有技术中需构建庞大的菜品库而引起的人工成本高,效率低的弊端;并可充分考虑菜名字段的上下文关联,提升菜名提取的准确度。并且本实施例输入至菜名预测模型中的是对待提取的菜名字段分割之后的至少一个菜名子串,从而可进一步地提升菜名提取的准确度及提取效率;并且可通过预设的过滤规则过滤菜名脏数据,从而进一步提高菜名提取精度;更在获得菜名预测结果之后,根据菜名预测结果中的至少一个候选菜品名称所对应的至少一个指标值,从至少一个候选菜品名称确定出与待提取的菜名字段对应的菜品名称,从而又进一步地提升了提取出的菜品名称的准确度。
图3示出了根据本发明一个实施例提供的一种菜品名称提取装置的功能结构示意图。如图3所示,该装置包括:第一获取模块31、预测模块32、第二获取模块33以及确定模块34。
其中,第一获取模块31,适于获取待提取的菜名字段;
预测模块32,适于将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
第二获取模块33,适于获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
确定模块34,适于根据至少一个候选菜品名称对应的菜名指标,根据所述菜名预测结果确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量。
可选的,该装置还包括:分割模块(图中未示出),适于对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
预测模块32进一步适于:将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
可选的,分割模块进一步适于:根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串。
可选的,该装置还包括:第三获取模块(图中未示出),适于获取菜名字段样本;
标注模块(图中未示出),适于为所述菜名字段样本配置对应的标注;
训练模块(图中未示出),适于将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
可选的,标注模块进一步适于:对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
可选的,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
可选的,所述标注模块进一步适于:将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
可选的,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
其中,本实施例提供的菜品名称提取装置中的各个模块的具体实施过程可参照上述方法实施例中相应部分的描述,本实施例在此不做赘述。
由此可见,本实施例中创造性地利用机器学习的方法,基于命名实体识别训练得到菜名预测模型,并将待提取的菜名字段输入该菜名预测模型中以获得菜名预测结果,进一步根据至少一个候选菜品名称对应的菜名指标从菜名预测结果中的至少一个候选菜品名称中选取最终的菜品名称作为待提取的菜名字段对应的菜品名称。由此避免了现有技术中需构建庞大的菜品库而引起的人工成本高,效率低的弊端;并且通过基于命名实体识别的菜名预测模型的预测,可充分考虑菜名字段的上下文关联,提升菜名预测结果的准确性,从而为最终准确提取菜品名称提供基础;并基于菜名预测模型输出的菜名预测结果根据至少一个候选菜品名称对应的菜名指标,对至少一个候选菜品名称进行进一步地选取,从而进一步地提高提取出的菜品名称的准确度。
根据本发明一个实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的菜品名称提取方法。
图4示出了根据本发明一个实施例提供的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述菜品名称提取方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
获取待提取的菜名字段;
将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
根据至少一个候选菜品名称对应的菜名指标,确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
获取菜名字段样本;
为所述菜名字段样本配置对应的标注;
将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;
将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;
根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
在一种可选的实施方式中,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
在一种可选的实施方式中,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明中菜品名称提取装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (14)

1.一种菜品名称提取方法,包括:
获取待提取的菜名字段;
将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
根据至少一个候选菜品名称对应的菜名指标,确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量;
其中,所述将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中进一步包括:
根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
2.根据权利要求1所述的方法,其中,在所述将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中之前,所述方法还包括:
获取菜名字段样本;
为所述菜名字段样本配置对应的标注;
将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
3.根据权利要求2所述的方法,其中,所述为所述菜名字段样本配置对应的标注进一步包括:
对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;
将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;
根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
4.根据权利要求3所述的方法,其中,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
5.根据权利要求3或4所述的方法,其中,所述将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配进一步包括:将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
6.根据权利要求1-4中任一项所述的方法,其中,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
7.一种菜品名称提取装置,包括:
第一获取模块,适于获取待提取的菜名字段;
预测模块,适于将所述待提取的菜名字段输入至预先训练得到的菜名预测模型中,其中,所述菜名预测模型为基于命名实体识别的预测模型;
第二获取模块,适于获取菜名预测模型输出的菜名预测结果;其中,所述菜名预测结果中包含有与所述待提取的菜名字段对应的至少一个候选菜品名称;
确定模块,适于根据至少一个候选菜品名称对应的菜名指标,确定与所述待提取的菜名字段对应的菜品名称;其中,所述至少一个候选菜品名称对应的菜名指标包括:所述至少一个候选菜品名称对应的预测概率值、菜名长度、店铺数量、和/或订单数量;
其中,所述装置还包括:
分割模块,适于根据分割符号对所述待提取的菜名字段进行字符串分割,获得至少一个菜名子串;
所述预测模块进一步适于:将所述至少一个菜名子串分别输入至预先训练得到的菜名预测模型中。
8.根据权利要求7所述的装置,其中,所述装置还包括:
第三获取模块,适于获取菜名字段样本;
标注模块,适于为所述菜名字段样本配置对应的标注;
训练模块,适于将携带有标注的菜名字段样本输入至预设的菜名预测模型中,进行菜名预测模型训练。
9.根据权利要求8所述的装置,其中,所述标注模块进一步适于:对所述菜名字段样本进行字符串分割,获得至少一个菜名样本子串;
将所述至少一个菜名样本子串分别与预先构建的标注词库进行匹配;
根据匹配结果,为所述至少一个菜名样本子串配置对应的标注。
10.根据权利要求9所述的装置,其中,所述标注词库中包含有标准菜名词表、食材词表、口味词表、及做法词表中的至少一种。
11.根据权利要求9或10所述的装置,其中,所述标注模块进一步适于:将所述至少一个菜名样本子串分别与预先构建的标注词库中的至少一个词进行最长字符串匹配。
12.根据权利要求7-10中任一项所述的装置,其中,所述菜名预测模型为基于BiLSTM+crf的命名实体识别的预测模型。
13.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的菜品名称提取方法对应的操作。
14.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的菜品名称提取方法对应的操作。
CN201811259894.0A 2018-10-26 2018-10-26 菜品名称提取方法及装置 Active CN109472025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811259894.0A CN109472025B (zh) 2018-10-26 2018-10-26 菜品名称提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811259894.0A CN109472025B (zh) 2018-10-26 2018-10-26 菜品名称提取方法及装置

Publications (2)

Publication Number Publication Date
CN109472025A CN109472025A (zh) 2019-03-15
CN109472025B true CN109472025B (zh) 2023-04-18

Family

ID=65666064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811259894.0A Active CN109472025B (zh) 2018-10-26 2018-10-26 菜品名称提取方法及装置

Country Status (1)

Country Link
CN (1) CN109472025B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738051A (zh) * 2019-09-17 2020-01-31 北京三快在线科技有限公司 菜名实体识别方法、装置、电子设备及存储介质
CN111444345A (zh) * 2020-03-30 2020-07-24 拉扎斯网络科技(上海)有限公司 菜品名称分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN108596789A (zh) * 2018-03-29 2018-09-28 客如云科技(成都)有限责任公司 一种菜品标准化的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN108596789A (zh) * 2018-03-29 2018-09-28 客如云科技(成都)有限责任公司 一种菜品标准化的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词典与条件随机场的中文菜名识别研究;杨晓燕等;《信息与电脑(理论版)》;20180915(第17期);全文 *

Also Published As

Publication number Publication date
CN109472025A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
US11907277B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
CN109635198B (zh) 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN111400507B (zh) 实体匹配方法及其装置
CN111259281B (zh) 商户标签的确定方法、装置及存储介质
CN113570413B (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN110851571B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN107958406A (zh) 查询数据的获取方法、装置及终端
CN109472025B (zh) 菜品名称提取方法及装置
CN111260428A (zh) 一种商品推荐方法和装置
CN111666757A (zh) 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN110688455A (zh) 基于人工智能过滤无效评论的方法、介质及计算机设备
CN114078037A (zh) 基于标签向量化的商品推荐方法及装置
CN110019983B (zh) 标签结构的扩展方法、装置及电子设备
CN115033797A (zh) 内容搜索方法及装置、存储介质、计算机设备
CN110738051A (zh) 菜名实体识别方法、装置、电子设备及存储介质
CN106919649B (zh) 一种词条权重计算的方法及装置
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product
CN111723296B (zh) 搜索处理方法、装置及计算机设备
CN110990558B (zh) 电子书内容展示方法、计算设备及计算机存储介质
CN108280198B (zh) 榜单生成方法及装置
CN109447719B (zh) 目标推广商品自动确定方法、装置、介质及电子设备
CN111444345A (zh) 菜品名称分类方法及装置
CN112528665A (zh) 一种基于语义理解的信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant