CN114821568A

CN114821568A - 菜单要素提取方法、装置、计算机设备及存储介质

Info

Publication number: CN114821568A
Application number: CN202210732633.6A
Authority: CN
Inventors: 莫秀云; 王国鹏; 王洁瑶
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-07-29
Anticipated expiration: 2042-06-27
Also published as: CN114821568B

Abstract

本申请涉及人工智能技术，提供了菜单要素提取方法、装置及设备，是先获取待识别菜单图像中的菜单区域图像，然后获取其中的文本区域图像，以及各文本区域图像的文本区域坐标集、文本类别和文本内容并结合对应的图像矩阵生成各文本区域图像的融合特征，之后基于第一分类网络确定任意两个文本区域图像之间的第一分类结果，并将存在关联关系的文本区域图像分别对应的融合特征融合后输入至第二分类网络得到第二分类结果，最后由菜单区域图像中的文本内容、第一分类结果和第二分类结果确定菜单要素提取信息。实现了基于图像识别对待识别菜单图像中文本要素的准确提取，还能准确确定各文本要素之间的对应关系和从属关系，得到了更多维度的菜单要素。

Description

菜单要素提取方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能的计算机视觉技术领域，尤其涉及一种菜单要素提取方法、装置、计算机设备及存储介质。

背景技术

目前，纸质菜单是每家餐馆向顾客展示菜品的主要方式。随着智能终端尤其是智能手机的广泛应用，用户开始越来越多得选择使用智能手机上所运行的软件获取电子菜单后进行菜品选择。但是目前为了降低纸质菜单数据迁移至服务器中得到电子菜单的成本，往往采用人工录入菜单数据的方式，这就需要人工查看纸质菜单的菜单要素，并采用人工录入方式将菜单元素录入至服务器中生成电子菜单，不仅识别菜单要素易出错，而且容易弄错菜单要素之间的关联关系。

发明内容

本申请实施例提供了一种菜单要素提取方法、装置、计算机设备及存储介质，旨在解决现有技术中将纸质菜单转换成电子菜单时往往采用人工查看纸质菜单的菜单要素，并采用人工录入方式将菜单元素录入至服务器中生成电子菜单，不仅识别菜单要素易出错，而且容易弄错菜单要素之间的关联关系的问题。

第一方面，本申请实施例提供了一种菜单要素提取方法，其包括：

获取待识别菜单图像；

基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像；

基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别；

获取每一文本区域图像的文本内容；

由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征；

将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果；

基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果；

根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。

第二方面，本申请实施例提供了一种菜单要素提取装置，其包括：

菜单图像获取单元，用于获取待识别菜单图像；

菜单区域获取单元，用于基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像；

文本区域信息获取单元，用于基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别；

文本识别单元，用于获取每一文本区域图像的文本内容；

融合特征获取单元，用于由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征；

第一分类单元，用于将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果；

第二分类单元，用于基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果；

菜单要素获取单元，用于根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的菜单要素提取方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的菜单要素提取方法。

本申请实施例提供了一种菜单要素提取方法、装置、计算机设备及存储介质，获取待识别菜单图像；基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像；基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别；获取每一文本区域图像的文本内容；由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征；将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果；基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果；根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。实现了基于图像识别对待识别菜单图像中文本要素的准确提取，还能准确确定各文本要素之间的对应关系和从属关系，得到了更多维度信息的菜单要素。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的菜单要素提取方法的应用场景示意图；

图2为本申请实施例提供的菜单要素提取方法的流程示意图；

图3a为本申请实施例提供的菜单要素提取方法中待识别菜单图像的示意图；

图3b为本申请实施例提供的菜单要素提取方法中菜单区域图像的示意图；

图3c为本申请实施例提供的菜单要素提取方法中菜单文本区域识别结果的示意图；

图4为本申请实施例提供的菜单要素提取装置的示意性框图；

图5为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本申请实施例提供的菜单要素提取方法的应用场景示意图；图2为本申请实施例提供的菜单要素提取方法的流程示意图，该菜单要素提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101~S108。

S101、获取待识别菜单图像。

在本实施例中，是以服务器为执行主体来描述技术方案。用户使用的用户端（如智能手机、平板电脑等智能终端）可与服务器进行数据交互，具体如服务器提供了一个菜单图片识别平台，用户使用用户端可登录该菜单图片识别平台。用户端的终端界面上显示有该菜单图片识别平台的用户交互界面，且该用户交互界面中存在有至少一个图片上传接口。当用户选定某一拍摄的菜单图像作为待识别菜单图像，并从图片上传接口上传至服务器后，在服务器中即可进行后续的菜单图像中要素提取。

S102、基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像。

在本实施例中，服务器中所获取到的待识别菜单图像如图3a所示，因其一般包括杂乱且场景多样的图像背景部分和菜单图像部分，故需要先对所述待识别菜单图像中的菜单区域图像进行目标区域检测。具体是，服务器先获取其中预先存储的第一目标检测网络，之后通过所述第一目标检测网络对所述待识别菜单图像中的目标区域进行识别，以得到如图3b所示的菜单区域图像。可见，通过这一目标区域提取的处理，可以将干扰识别的图像背景部分进行移除，仅保留实际需要进行识别的菜单图像部分。

在一实施例中，所述第一目标检测网络是YOLOv5检测模型；所述步骤S102具体包括：

通过对所述待识别菜单图像进行归一化处理，得到归一化菜单图像；

通过所述第一目标检测网络对所述归一化菜单图像进行菜单区域提取，得到菜单区域图像。

在本实施例中，所采用的第一目标检测网络是YOLOv5检测模型，而 YOLOv5是YOLO这一对象检测算法的v5版本。通过YOLOv5检测模型可以识别出所述归一化菜单图像中菜单图像的外围轮廓边框，即第一目标检测网络的主要识别对象是菜单图像而不是具体的文本内容，完成了对菜单图像部分的识别之后可以进一步对菜单图像部分内的各文本进行识别。具体的，基于YOLOv5检测模型可以识别归一化菜单图像中存在菜单图像的区域，且针对存在菜单图像的区域会给出分类结果及该分类结果对应概率值的识别结果展示。例如，通过第一目标检测网络识别到所述归一化菜单图像中一个区域的分类结果是菜单图像且对应概率值为0.9，则表示该区域大概率是菜单图像而非背景图像。此时将归一化菜单图像对应的菜单图像区域保留，且将背景图像区域进行裁剪即可得到菜单区域图像。

而且，在对所述待识别菜单图像进行归一化处理时，可以采用最大最小值归一化方法（其对应的公式为norm=（x-x_min）/（x_max -x_min），公式中的x表示待归一化参数，x_max表示与待归一化参数为同类参数的最大值，x_min与待归一化参数为同类参数的最小值）。对所述待识别菜单图像进行归一化处理，是为了消除其他变换函数对图像变换的影响，也就是将图像转换为唯一的标准形式以抵抗仿射变换，而且能防止图像过度拟合。

其中，在预先训练第一待训练模型而得到第一目标检测网络时，可以先从网络上采集各种场景下用户拍摄的菜单图像，对图像中的菜单位置进行标注，得到标注数据（也可以理解为样本集）。然后将标注数据分为两个部分，一部分用于训练第一待训练模型而得到YOLOv5检测模型（即在样本集中挑选一部分数据作为训练集），另一部分数据用于测试训练完成的YOLOv5检测模型的检测效果（即在样本集中挑选剩余部分数据作为测试集）。当基于标注数据完成对第一待训练模型而得到第一目标检测网络后，即可使用第一目标检测网络识别获取所述待识别菜单图像中的菜单区域图像。

S103、基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别。

在本实施例中，服务器中已获取到的菜单区域图像如图3b所示，若需进一步细粒度识别所述菜单区域图像中的所有文本内容，则可采用预先训练的第二目标检测网络获取所述菜单区域图像中包括所有文本区域图像以组成文本区域图像集。具体是服务器先获取其中预先存储的第二目标检测网络，之后通过所述第二目标检测网络对所述菜单区域图像中的各文本区域进行识别，以得到如图3c所示的菜单文本区域识别结果。可见，通过这一目标文本区域提取的处理，可以进一步识别菜单区域图像中包括的所有文本，文本的分布区域以及文本类别。

在一实施例中，所述第二目标检测网络是YOLOv5检测模型；所述步骤S103包括：

通过所述第二目标检测网络对所述菜单区域图像进行文本区域提取，得到若干个文本区域图像，及每一文本区域图像对应的文本类别；

获取与所述菜单区域图像对应的平面直角坐标系，基于所述平面直角坐标系确定每一文本区域图像的文本区域坐标集；其中，所述菜单区域图像的左上角顶点位于所述平面直角坐标系的原点处。

在本实施例中，所采用的第二目标检测网络是YOLOv5检测模型，与所述第一目标检测网络也采用YOLOv5检测模型相似。通过第二目标检测网络也可以识别出所述菜单区域图像中所有文本区域的外围轮廓边框，即第二目标检测网络的主要识别对象是文本图像而不是具体的文本内容，完成了对菜单区域图像所有文本区域图像的识别之后，可以进一步对文本区域图像内的各文本具体内容进行识别。

具体的，基于第二目标检测网络可以识别菜单区域图像中存在文本图像的区域，且针对存在文本图像的区域会给出文本类别，还能准确定位每一个文本图像的区域的文本区域坐标集；其中，所述文本区域图像的文本类别为价格、菜名、品类和其他这四个类别中的其中一种。

例如，如图3c所示，通过第二目标检测网络识别到所述菜单区域图像中一个文本区域图像的文本类别是价格且对应概率值为0.9，则表示文本区域图像其中的文本内容大概率是价格取值。进一步的，在如图3c所示的菜单文本区域识别结果中，以图中所示的4个虚线框（具体是矩形形状的虚线框）为例，每一个虚线框代表一个文本区域图像的分布区域，且每一虚线框的右侧还标明了文本区域图像的类别（类别也可以理解为分类结果）。若以菜单区域图像的左上角顶点为直角坐标系原点，以沿左上角顶点朝向左下角顶点的连线方向为直角坐标系Y轴正方向，以沿左上角顶点朝向右上角顶点的连线方向为直角坐标系X轴正方向，可以建立一个二维的平面直角坐标系。在建立了该平面直角坐标系后，每一虚线框的4个顶点的坐标也是可以获知的，这样基于第二目标检测网络可以获取到所述菜单区域图像中的各文本区域图像组成文本区域图像集，而且还能同时获取到每一文本区域图像的文本区域坐标集和文本类别。

其中，在预先训练第二待训练模型而得到第二目标检测网络时，也可参考训练第一待训练模型而得到第一目标检测网络的过程，具体是先获取多张菜单图像，对菜单图像中的每个文本区域位置和文本类别进行标注，得到另一标注数据（也可以理解为另一样本集）。然后将另一标注数据分为两个部分，一部分用于训练第二待训练模型而得到YOLOv5检测模型（即在另一样本集中挑选一部分数据作为训练集），另一部分数据用于测试训练完成的YOLOv5检测模型的检测效果（即在另一样本集中挑选剩余部分数据作为测试集）。当基于另一标注数据完成对第二待训练模型而得到第二目标检测网络后，即可使用第二目标检测网络识别获取所述菜单区域图像中的所有文本区域图像。

S104、获取每一文本区域图像的文本内容。

在本实施例中，当已获取了所述菜单区域图像中包括的所有文本区域图像后，可以分别对每一文本区域图像进行文本内容识别，以得到每一文本区域图像的文本内容。通过进一步对每一文本区域图像的文本内容进行识别，得到除了每一文本区域图像的文本区域坐标集和文本类别以外更多维度的信息。

在一实施例中，步骤S104包括：

通过预先训练的卷积递归神经网络对每一文本区域图像进行文本识别，得到每一文本区域图像的文本内容。

在本实施例中，在服务器中还预先存储有已完成训练的卷积递归神经网络（即CRNN网络），可以将每一文本区域图像作为所述卷积递归神经网络的输入，即可得到每一文本区域图像的文本内容。例如图3c所示的“彩虹蛋糕”所对应的文本区域图像输入至所述卷积递归神经网络后，即可输出其相应识别得到的文本内容“彩虹蛋糕”。

其中，在服务器中对待训练卷积递归神经网络进行模型训练得到卷积递归神经网络时，可以选用从互联网中获取的LSVT数据集（LSVT的全称是Large-scale Street ViewText，表示大规模街景文字）作为训练集对待训练卷积递归神经网络进行模型训练，从而得到本申请中所使用卷积递归神经网络。

S105、由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征。

在本实施例中，当获取了所述菜单区域图像中所有文本区域图像的文本区域坐标集、文本类别和文本内容后，由于每一文本区域图像对应的图像矩阵也是已知的，此时可以由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征。

例如，如图3c中所示的“彩虹蛋糕”所对应的文本区域图像，其对应一个文本区域坐标集[（x₁₁，y₁₁），（x₂₁，y₃₁），（x₃₁，y₃₁），（x₄₁，y₄₁）]，其对应的文本类别为菜名，其对应的图像矩阵是该文本区域图像的数字图像数据（一般是文本区域图像中每一像素点以灰度值表示后，则可对应转化为图像矩阵），且其对应的文本内容是“彩虹蛋糕”。此时将“彩虹蛋糕”所对应的文本区域图像中上述四个维度的数据进行融合后，得到与“彩虹蛋糕”所对应的文本区域图像相应的融合特征。以此类推，菜单区域图像中其他文本区域图像的融合特征获取过程也是参考“彩虹蛋糕”所对应文本区域图像相应的融合特征的获取过程。可见，基于上述方式，获取了菜单区域图像中每一文本区域图像的融合特征，以便于后续基于任意两个文本区域图像的融合特征之间的关联性来判断任意两个文本区域图像之间的关联性。

S106、将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果。

在本实施例中，若所述菜单区域图像中所包括的文本区域图像的总个数为N（N是一个正整数），则此时为了判断所述菜单区域图像中任意两个文本区域图像之间的关联关系，先获取服务器中预先训练的第一分类网络，然后将所获取的两个文本区域图像的融合特征按照预设的处理策略进行处理（如将两个融合特征求和）后再输入至所述第一分类网络中进行运算，最终得到所获取的两个文本区域图像之间的关联对应关系以作为第一分类结果。其中，两个文本区域图像之间的基于第一分类网络得到的第一分类结果为存在关联关系或不存在关联关系中的任意一种；更具体的，存在关联关系可以用标识值1来表示，不存在关联关系可以用标识值0来表示。

在一实施例中，步骤S106包括：

重复从所述文本区域图像集中获取任意两个文本区域图像，以及所获取的两个文本区域图像对应的融合特征，将所获取的两个文本区域图像对应的融合特征求和并输入至所述第一分类网络以得到所获取的两个文本区域图像对应的第一分类结果，直至得到所述文本区域图像集各文本区域图像与剩余其他所有文本区域图像之间的第一分类结果。

在本实施例中，为了更清楚的理解所述菜单区域图像中任意两个文本区域图像基于第一分类网络分类后得到的第一分类结果的过程，先将菜单区域图像中所包括的文本区域图像分别记为pic1至picN，第一文本区域图像pic1对应的融合特征记为feature1，第二文本区域图像pic2对应的融合特征记为feature2，第三文本区域图像pic3对应的融合特征记为feature3，……，第N文本区域图像picN对应的融合特征记为featureN，则可以如下表1所示的表格来展示第一分类结果：

	feature1	feature2	feature3	……	featureN
						feature1	X<sub>11</sub>	X<sub>12</sub>	X<sub>13</sub>	……	X<sub>1N</sub>
feature2	X<sub>21</sub>	X<sub>22</sub>	X<sub>23</sub>	……	X<sub>2N</sub>
						feature3	X<sub>31</sub>	X<sub>32</sub>	X<sub>33</sub>	……	X<sub>3N</sub>
……	……	……	……	……	……
						featureN	X<sub>N1</sub>	X<sub>N2</sub>	X<sub>N3</sub>	……	X<sub>NN</sub>

表1

在如上的表1中X_ij表示featurei与featurej之间的第一分类结果（i和j的取值范围都是1-N，且i和j均为正整数），且X_ij的取值为0或1，当X_ij=1时表示featurei与featurej之间存在关联关系，当X_ij=0时表示featurei与featurej之间不存在关联关系。其中，在计算X_ij时，是将featurei与featurej的和输入至所述第一分类网络运算得到；所述第一分类网络具体采用二分类网络VGG16。

例如，如图3c中所示的“彩虹蛋糕”所对应的文本区域图像，该文本区域图像对应一个第一融合特征；如图3c中所示与“彩虹蛋糕”位于同一行的“¥15”所对应的另一文本区域图像，该一文本区域图像对应一个第二融合特征，将第一融合特征和第二融合特征求和后输入至所述第一分类网络，得到与第一融合特征和第二融合特征对应的第一分类结果。由于与“彩虹蛋糕”位于同一行的“¥15”是与“彩虹蛋糕”存在关联关系的，故上述示例得到的第一分类结果为存在关联关系。参考获取与“彩虹蛋糕”位于同一行的“¥15”是与“彩虹蛋糕”之间的第一分类结果的过程，还可以获取所述文本区域图像集中任意两个文本区域图像之间的关联关系。

S107、基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果。

在本实施例中，若继续参考上述表1，从表1中选取一个X_pq取值为1的第一分类结果（p和q的取值范围都是1-N，且p和q均为正整数），还能进一步反推得到X_pq分别对应的featurep与featureq，此时仍然可以将featurep与featureq按照预设的另一处理策略进行处理（如将两个融合特征求和）后再输入至所述第二分类网络中进行运算，最终得到picp和picq这两张文本区域图像对应的第二分类结果。具体实施时，所述第二分类结果为主食、酒水、甜点或汤类这4个品类中的其中一种；所述第二分类网络具体采用K最邻近分类网络（即KNN网络）。

在一实施例中，步骤S107包括：

获取第一分类结果为存在关联关系的文本区域图像组成关联图像组；

将所述关联图像组中每一文本区域图分别对应的融合特征求和并输入至所述第二分类网络，得到所述关联图像组对应的第二分类结果。

在本实施例中，两个文本区域图像对应的第一分类结果为1（表示存在关联关系），则将这两个文本区域图像组成关联图像组。当获取了所述菜单区域图像中所有的关联图像组，将每一个关联图像组分别对应的融合特征求和并输入至所述第二分类网络，可得到每一关联图像组分别对应的第二分类结果。基于第二分类结果，则可以确定该关联图像组所属品类，如为主食、酒水、甜点或汤类这4个品类中的其中一种。可见，基于上述方式，可以快速将确定各关联图像组所属品类。

例如，如图3c所示，与“彩虹蛋糕”位于同一行的“¥15”是与“彩虹蛋糕”是存在关联关系的两个文本区域图像，这两个文本区域图像组成一个关联图像组。将“彩虹蛋糕”对应的第一融合特征及与“¥15”对应的第二融合特征求和并输入至所述第二分类网络，得到上述关联图像组对应的第二分类结果（如具体为“甜点”）。显然，所述菜单区域图像中存在的其他所有关联图像组也是采用上述方式进行品类的分类。

S108、根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。

在本实施例中，当获取了所述菜单区域图像中每一文本区域图像的文本内容，而且已知了与每一文本区域图像存在关联关系的另外一个文本区域图像，且已知了每两个存在关联关系的文本区域图像所组成的关联图像组所属第二分类结果后，可以基于所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。例如，与“彩虹蛋糕”位于同一行的“¥15”，所得到的第一分类结果是1，所得到的第二分类结果是甜点，则由{彩虹蛋糕，¥15，1，甜点}组成一条菜单要素提取信息。当获取了所有如上的菜单要素提取信息后，则得到了所述待识别菜单图像所对应完整的菜单要素提取信息。

在一实施例中，步骤S108包括：

若确定所述第一分类结果和所述第二分类结果对应同一关联图像组，基于所述关联图像组对应的文本内容、所述第一分类结果及所述第二分类结果组成所述关联图像组对应的菜单要素提取信息。

在本实施例中，为了更准确的获取所述待识别菜单图像所对应完整的菜单要素提取信息，需要先基于所述第一分类结果确定所述待识别菜单图像中所有的关联图像组，将每一关联图像组的文本内容、第一分类结果及第二分类结果串接，组成与每一关联图像组对应的菜单要素提取信息，然后对菜单要素提取信息进行去重，即可得到所述待识别菜单图像所对应完整的菜单要素提取信息。

该方法实现了基于图像识别对待识别菜单图像中文本要素的准确提取，还能准确确定各文本要素之间的对应关系和从属关系，得到了更多维度的菜单要素。

本申请实施例还提供一种菜单要素提取装置，该菜单要素提取装置用于执行前述菜单要素提取方法的任一实施例。具体地，请参阅图4，图4是本申请实施例提供的菜单要素提取装置100的示意性框图。

其中，如图4所示，菜单要素提取装置100包括菜单图像获取单元101、菜单区域获取单元102、文本区域信息获取单元103、文本识别单元104、融合特征获取单元105、第一分类单元106、第二分类单元107和菜单要素获取单元108。

其中，所述菜单图像获取单元101，用于获取待识别菜单图像。

菜单区域获取单元102，用于基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像。

在一实施例中，所述第一目标检测网络是YOLOv5检测模型；所述菜单区域获取单元102具体用于：

文本区域信息获取单元103，用于基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别。

在一实施例中，所述第二目标检测网络是YOLOv5检测模型；所述文本区域信息获取单元103具体用于：

文本识别单元104，用于获取每一文本区域图像的文本内容。

在一实施例中，文本识别单元104具体用于：

融合特征获取单元105，用于由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征。

第一分类单元106，用于将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果。

在一实施例中，第一分类单元106具体用于：

在本实施例中，为了更清楚的理解所述菜单区域图像中任意两个文本区域图像基于第一分类网络分类后得到的第一分类结果的过程，先将菜单区域图像中所包括的文本区域图像分别记为pic1至picN，第一文本区域图像pic1对应的融合特征记为feature1，第二文本区域图像pic2对应的融合特征记为feature2，第三文本区域图像pic3对应的融合特征记为feature3，……，第N文本区域图像picN对应的融合特征记为featureN，则可以如上表1所示的表格来展示第一分类结果。

第二分类单元107，用于基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果。

在一实施例中，第二分类单元107具体用于：

菜单要素获取单元108，用于根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。

在一实施例中，菜单要素获取单元108具体用于：

该装置实现了基于图像识别对待识别菜单图像中文本要素的准确提取，还能准确确定各文本要素之间的对应关系和从属关系，得到了更多维度的菜单要素。

上述菜单要素提取装置可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图5，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行菜单要素提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行菜单要素提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例公开的菜单要素提取方法。

本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的菜单要素提取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，后台服务器，或者网络设备等 ) 执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种菜单要素提取方法，其特征在于，包括：

获取待识别菜单图像；

获取每一文本区域图像的文本内容；

2.根据权利要求1所述的菜单要素提取方法，其特征在于，所述第一目标检测网络为YOLOv5检测模型；

所述基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像，包括：

3.根据权利要求1所述的菜单要素提取方法，其特征在于，所述第二目标检测网络为YOLOv5检测模型；

所述基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别，包括：

4.根据权利要求1所述的菜单要素提取方法，其特征在于，所述获取每一文本区域图像的文本内容，包括：

5.根据权利要求1所述的菜单要素提取方法，其特征在于，所述将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果，包括：

重复从所述文本区域图像集中获取任意两个文本区域图像，以及所获取的两个文本区域图像对应的融合特征，将所获取的两个文本区域图像对应的融合特征求和并输入至所述第一分类网络，以得到所获取的两个文本区域图像对应的第一分类结果，直至得到所述文本区域图像集各文本区域图像与剩余其他所有文本区域图像之间的第一分类结果。

6.根据权利要求1所述的菜单要素提取方法，其特征在于，所述基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果，包括：

7.根据权利要求6所述的菜单要素提取方法，其特征在于，所述根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息，包括：

8.一种菜单要素提取装置，其特征在于，包括：

菜单图像获取单元，用于获取待识别菜单图像；

文本识别单元，用于获取每一文本区域图像的文本内容；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的菜单要素提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的菜单要素提取方法。