CN111563376A

CN111563376A - 菜名识别方法和装置

Info

Publication number: CN111563376A
Application number: CN201910111962.7A
Authority: CN
Inventors: 徐光伟; 赵鹏; 李辰; 包祖贻; 刘恒友; 李林琳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2020-08-21

Abstract

本申请公开了菜名识别方法和装置。其中，菜名识别方法包括：获取待识别的原始菜名；通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到。采用这种处理方式，使得通过从少量人工标注数据集中学习到的菜名识别模型即可较好识别海量原始菜名的菜名，避免大量人力和时间对原始菜名进行菜名标注；因此，可以有效兼顾较低人工标注成本及较高菜名识别准确度两个方面。

Description

菜名识别方法和装置

技术领域

本申请涉及自然语言处理技术领域，具体涉及菜名识别方法和装置。

背景技术

在本地生活服务O2O业务场景中，一方面允许商家自由编辑菜品名称以吸引顾客，如“京酱肉丝打包”、“京酱肉丝盖饭”等等菜名；另一方面，要通过菜名识别技术自动为海量的菜品名称作归一化(标准化)处理，如“京酱肉丝打包”对应的真实菜品为“京酱肉丝”，“京酱肉丝盖饭”对应的真实菜品就是“京酱肉丝盖饭”本身，以便于在标准化的菜品名称上进行搜索、推荐等数据处理。

一种典型的菜名识别方法如下所述。通过序列标注的机器学习方式，从有标注的菜品名称数据集中学习得到菜名识别模型，再基于菜名识别模型自动为海量的菜品名称作菜名标准化处理。其中，有标注的菜品名称数据集包括原始菜名和标准化菜名间的对应关系。目前，对于菜品名称的标注方式主要为人工标注方式，即：利用人工逐条对海量原始菜名进行标准化菜名的标注。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：1)由于通过人工对原始菜名进行菜名标注，菜名标注的准确率与标注人的经验有关，因此无法保证数据标注的准确率，从而影响菜名识别模型的准确度，进而影响菜名识别的准确度；2)由于需要大量人力和时间对原始菜名进行菜名标注，因此导致人工成本高，且数据标注效率低，使得无法及时更新菜名识别模型。

发明内容

本申请提供菜名识别方法，以解决现有技术存在的菜名识别准确度较低的问题。本申请另外提供菜名识别装置。

本申请提供一种菜名识别方法，包括：

获取待识别的原始菜名；

通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；

通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到。

可选的，所述语言模型采用如下步骤学习得到：

获取所述第一原始菜名集；

构建所述语言模型的神经网络；

以语言模型对下一个词的预测概率小于概率阈值为训练目标，根据所述第一原始菜名集训练所述神经网络。

可选的，还包括：

若满足语言模型更新条件，则至少根据新增的第一原始菜名更新所述语言模型。

可选的，所述语言模型包括N-gram模型；所述词包括由N个相邻字构成的字串。

可选的，所述语言模型的网络结构包括以下网络结构的至少一个：双向长短时记忆网络，卷积神经网络，Transformer模型。

可选的，所述菜名识别模型采用如下步骤学习得到：

获取所述第二原始菜名集；

构建所述菜名识别模型的神经网络；

根据所述第二原始菜名集，训练所述神经网络。

本申请还提供一种菜名识别装置，包括：

原始菜名获取单元，用于获取待识别的原始菜名；

上下文相关词向量确定单元，用于通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；

菜名识别单元，用于通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到。

可选的，还包括：

语言模型构建单元；

所述语言模型构建单元包括：

语料集获取子单元，用于获取所述第一原始菜名集；

神经网络构建子单元，用于构建所述语言模型的神经网络；

训练子单元，用于以语言模型对下一个词的预测概率小于概率阈值为训练目标，根据所述第一原始菜名集训练所述神经网络。

可选的，还包括：

语言模型更新单元，用于若满足语言模型更新条件，则至少根据新增的第一原始菜名更新所述语言模型。

可选的，还包括：

菜名识别模型构建单元；

所述菜名识别模型构建单元包括：

训练数据集获取子单元，用于获取所述第二原始菜名集；

神经网络构建子单元，用于构建所述菜名识别模型的神经网络；

训练子单元，用于根据所述第二原始菜名集，训练所述神经网络。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的菜名识别方法，通过获取待识别的原始菜名；通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到；这种处理方式，使得通过从海量的无标注菜品名称数据中学习到的语言模型，确定原始菜名中每个词的上下文相关词向量，并通过从少量人工标注数据集中学习到的菜名识别模型，根据上下文相关词向量识别出原始菜名的菜名，避免大量人力和时间对原始菜名进行菜名标注；因此，可以兼顾较低人工标注成本及较高菜名识别准确度两个方面。

附图说明

图1是本申请提供的一种菜名识别方法的实施例的流程图；

图2是本申请提供的一种菜名识别方法的实施例的语言模型示意图；

图3是本申请提供的一种菜名识别方法的实施例的菜名识别模型示意图；

图4是本申请提供的一种菜名识别方法的实施例的具体流程图；

图5是本申请提供的一种菜名识别装置的实施例的示意图；

图6是本申请提供的一种菜名识别装置的实施例的具体示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了菜名识别方法和装置。在下面的实施例中逐一对各种方案进行详细说明。

本申请提供的技术方案，其核心的技术思想为：结合在海量无标注菜品数据上学习的语言模型，确定原始菜名的上下文相关词向量，将该向量作为菜品识别模型的输入，通过菜品识别模型识别与原始菜名对应的菜名。由于只需人工标注少量的菜品识别模型训练数据，因此可以有效降低人工成本，提升菜品识别模型的生成效率；同时，由于无需为新增原始菜名标注数据，使得自动更新语言模型，因此可以有效提升菜名的识别准确度。

第一实施例

请参考图1，其为本申请提供的一种菜名识别方法实施例的流程图，该方法的执行主体包括菜名识别装置。本申请提供的一种菜名识别方法包括：

步骤S101：获取待识别的原始菜名。

所述待识别的原始菜名，包括由商家自由编辑的菜品名称，该菜名可能并非菜名，而是菜名的各种变体，例如，原始菜名为“京酱肉丝打包”、“京酱肉丝盖饭”，其菜名为“京酱肉丝”。

在获取到待识别的原始菜名后，就可以进入下一步骤通过语言模型，确定该原始菜名中出现的多个词(或字符串)的上下文相关词向量。

步骤S103：通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量。

所述上下文相关词向量，是词的一种语义向量，该语义向量根据词的上下文信息动态可变。也就是说，同一个词在不同的句子中，由于该词的上下文可能不同，因而计算出的词向量并不相同，例如，“买了苹果手机”和“这个苹果好吃”中的“苹果”会得出不同的词向量表示。较常规词向量而言，所述上下文相关词向量对词语义的表示能力更强。简而言之，常规词向量是一种静态的词向量，每个词对应固定的向量；所述上下文相关词向量是一种动态的词向量，每个词根据所在句子的上下文信息，对应不同的语义向量。

需要说明的是，本申请实施例所述的词，可以是词表中的词，通常为自然词，如“酱肉”、“苹果”等等；也可以是由N个相邻字构成的字串，包括自然词和非自然词，非自然词如“京酱”、“果手”等等2个字组成的字串。

所述语言模型，是根据语言客观事实而进行的语言抽象数学建模，可以用来判断一句话的通顺性和合理性，就是利用前文信息预测下一个词。语言模型的训练可以直接基于大规模语料进行无监督的模型训练。本实施例提供的所述语言模型，至少从未标注菜名信息的第一原始菜名集中学习得到。所述语言模型中可以学习到菜品名称的数据分布信息，针对输入的原始菜名，可输出每个词对应的上下文相关词向量表示。

所述语言模型，可以是N-gram模型，又称为字符级的语言模型。N-gram指文本中连续出现的N个元素，中文汉字N-gram代表N个连续汉字,N可以为1、2、3等等。例如，“京酱肉丝打包”包括如下2元字符:“京酱”、“酱肉”、“肉丝”、“丝打”、“打包”等等。所述N-gram语言模型，可表现为最终学习到不同N-gram在语义上的相似关联程度，最终模型的输出为原始菜名中每个字符(N-gram)对应的向量表示。

所述语言模型，也可以是基于词(词表中的词)的语言模型，又称为词级别的语言模型。词是由语素组成的最小的造句单位。例如，“京酱肉丝打包”包括以下词：“酱肉”、“肉丝”、“打包”等等。所述词级别的语言模型，可表现为最终学习到不同词在语义上的相似关联程度，最终模型的输出为原始菜名中每个词对应的向量表示。

在处理中文菜名时，由于中文没有自然的词边界，因此，要从第一原始菜名集中学习得到所述词级别的语言模型，首先需要通过分词器将原始菜名分词，然后再基于分词结果训练词级别的语言模型。考虑到菜品的不断更新且菜品命名比较随意，要构建一个分词效果好的分词器也是一个难题，因此，本实施例采用N-gram模型，以避免再构建合适的分词器。

本申请实施例提供的方法，利用海量无标注的原始菜品名称数据训练所述语言模型。所述第一原始菜名集包括多个原始菜名，这些菜名均可是未经标注标准化菜名的原始菜名。

所述语言模型，可采用如下步骤学习得到：1)获取所述第一原始菜名集；2)构建所述语言模型的神经网络；3)以语言模型对下一个词的预测概率小于概率阈值为训练目标，根据所述第一原始菜名集训练所述神经网络。

本实施例采用端到端的语言模型架构，模型本身可以是一种已有的结构。所述语言模型的网络结构，包括但不限于以下网络结构的至少一个：双向长短时记忆网络BLSTM，卷积神经网络CNN，Transformer模型等等。具体实施时，针对不同的数据和运行环境，可挑选效果与执行效率适合的网络结构。例如，采用基于BLSTM的语言模型，其输出的上下文相关词向量的准确度更高，但执行效率较低；采用基于CNN的语言模型，其输出的上下文相关词向量的准确度较低，但执行效率较高等等。

请参考图2，其为本申请提供的一种菜名识别方法实施例的语言模型示意图。在本实施例中，采用N-gram语言模型，其网络结构为双向LSTM网络结构，正向通过前文预测下一个词，反向通过后文预测前一个词，通过上下文信息建模N-gram之间的相似关联程度。由于是神经网络，网络中的节点都具体化成为向量，理论上最终相似或者关联程度高的N-gram对应的向量就会比较接近(向量夹角小)。图2中已经是N-gram(N＝2)的输入，此前的真实输入就是“京酱肉丝打包”，由图2可见，“京酱肉丝打包”中的每个字符对应一个N-gram，通过网络，最终输出的每个位置的词向量就是每个字符对应的上下文相关词向量。

在本实施例中，首先，获取原始菜名中每个N-gram的词向量表示，该词向量通常是上下文无关词向量，可通过词表获取；然后，将该词向量作为双向LSTM网络的输入，最后通过softmax预测输出的词，在softmax前的中间层输出向量包括所述上下文相关词向量。

在获取到原始菜名中各个字符对应的上下文相关词向量后，就可以进入下一步骤通过菜名识别模型，根据所述上下文相关词向量识别所述原始菜名的菜名。

步骤S105：通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名。

所述菜名识别模型，从已标注菜名信息的第二原始菜名集中学习得到。所述菜名又称为归一化菜名或标准化菜名。所述第二原始菜名集包括多个原始菜名，这些菜名均标注有标准化菜名。

请参考图3，其为本申请提供的一种菜名识别方法实施例的菜名识别模型示意图。在本实施例中，采用基于LSTM和CRF的序列标注模型，双向LSTM的输入数据为原始菜名中各个字符对应的上下文相关词向量，最后一层利用CRF(Conditional random field，条件随机场)组成一个最优标注。在菜品名称归一化(标准化)任务中，标注的类别为‘0’或者‘1’，‘0’表示当前字符不属于归一化后的菜名(菜名)，‘1’表示当前字符属于归一化后的菜名，最终整合所有标记为‘1’的字符作为归一化后的菜名，也就是最终识别到的菜名。

所述菜名识别模型，可采用如下步骤学习得到：1)获取所述第二原始菜名集；2)构建所述菜名识别模型的神经网络；3)根据所述第二原始菜名集，训练所述神经网络。

在现有技术中，只能利用菜名识别模型，在人工标注数据上进行学习，在不断有新的菜品名称数据更新时，又需要人工耗时耗力增加标注数据，因此通常无法及时更新菜名识别模型。

请参考图4，其为本申请提供的一种菜名识别方法实施例的具体流程图。为了解决上述无法及时更新菜名识别模型的问题，本申请实施例提供的方法还可包括如下步骤：

步骤S401：若满足语言模型更新条件，则至少根据新增的第一原始菜名更新所述语言模型。

所述语言模型更新条件，可以是与模型更新时间相关的条件，如距离上次模型更新时间达到1日/1周/1月等等；也可以是与新增菜名数量相关的条件，如新增菜名数量大于或等于新增数量阈值(如1000条等等)。

若判定满足语言模型更新条件，则可根据新增的第一原始菜名和原有第一原始菜名集中的数据更新所述语言模型。

本申请实施例提供的方法，通过若满足语言模型更新条件，则至少根据新增的第一原始菜名更新所述语言模型，使得基于海量自动更新的无标注菜名名称数据自动更新语言模型，即语言模型可以随着原始菜名数据的变化自动更新，更新的语言模型中可以学习到更新的菜品名称的数据分布信息，针对输入的原始菜名，利用更新的语言模型可输出每个词对应的更为准确的上下文相关词向量表示，产出的上下文相关词向量作为菜名识别模型的输入，即使不更新菜名识别模型，也可以一直保持较高准确度的菜名识别效果。

从上述实施例可以看出，本申请实施例提供的菜名识别方法，通过获取待识别的原始菜名；通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到；这种处理方式，使得通过从海量的无标注菜品名称数据中学习到的语言模型，确定原始菜名中每个词的上下文相关词向量，并通过从少量人工标注数据集中学习到的菜名识别模型，根据上下文相关词向量识别出与原始菜名对应的菜名，避免大量人力和时间对原始菜名进行菜名标注；因此，可以兼顾较低人工标注成本及较高菜名识别准确度两个方面。

在上述的实施例中，提供了一种菜名识别方法，与之相对应的，本申请还提供一种菜名识别装置。该装置是与上述方法的实施例相对应。

第二实施例

请参看图5，其为本申请的菜名识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种菜名识别装置，包括：

原始菜名获取单元501，用于获取待识别的原始菜名；

上下文相关词向量确定单元503，用于通过语言模型，确定所述原始菜名包括的至少一个词的上下文相关词向量；所述语言模型至少从未标注菜名信息的第一原始菜名集中学习得到；

菜名识别单元505，用于通过菜名识别模型，根据所述上下文相关词向量识别与所述原始菜名对应的菜名；所述菜名识别模型从已标注菜名信息的第二原始菜名集中学习得到。

可选的，还包括：

语言模型构建单元；

所述语言模型构建单元包括：

语料集获取子单元，用于获取所述第一原始菜名集；

神经网络构建子单元，用于构建所述语言模型的神经网络；

请参看图6，其为本申请的菜名识别装置的实施例的具体示意图。可选的，还包括：

语言模型更新单元601，用于若满足语言模型更新条件，则至少根据新增的第一原始菜名更新所述语言模型。

可选的，还包括：

菜名识别模型构建单元；

所述菜名识别模型构建单元包括：

训练数据集获取子单元，用于获取所述第二原始菜名集；

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种菜名识别方法，其特征在于，包括：

获取待识别的原始菜名；

2.根据权利要求1所述的方法，其特征在于，所述语言模型采用如下步骤学习得到：

获取所述第一原始菜名集；

构建所述语言模型的神经网络；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，

所述语言模型包括N-gram模型；

所述词包括由N个相邻字构成的字串。

5.根据权利要求1所述的方法，其特征在于，

所述语言模型的网络结构包括以下网络结构的至少一个：双向长短时记忆网络，卷积神经网络，Transformer模型。

6.根据权利要求1所述的方法，其特征在于，所述菜名识别模型采用如下步骤学习得到：

获取所述第二原始菜名集；

构建所述菜名识别模型的神经网络；

根据所述第二原始菜名集，训练所述神经网络。

7.一种菜名识别装置，其特征在于，包括：

原始菜名获取单元，用于获取待识别的原始菜名；

8.根据权利要求7所述的装置，其特征在于，还包括：

语言模型构建单元；

所述语言模型构建单元包括：

语料集获取子单元，用于获取所述第一原始菜名集；

神经网络构建子单元，用于构建所述语言模型的神经网络；

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求7所述的装置，其特征在于，还包括：

菜名识别模型构建单元；

所述菜名识别模型构建单元包括：

训练数据集获取子单元，用于获取所述第二原始菜名集；