CN112199985B

CN112199985B - 一种适用于智慧厨房系统的数字菜谱生成方法及装置

Info

Publication number: CN112199985B
Application number: CN202010800546.0A
Authority: CN
Inventors: 李�赫; 孙雷
Original assignee: Beijing Ruying Intelligent Technology Co ltd
Current assignee: Beijing Ruying Intelligent Technology Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2024-05-03
Anticipated expiration: 2040-08-11
Also published as: CN112199985A

Abstract

本发明公开了一种适用于智慧厨房系统的数字菜谱生成方法及装置，用以实现较快捷、准确的生成数字菜谱。所述方法，包括：对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作；按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序；在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象；根据替换后的目标对象，生成适用于机械臂的数字菜谱。

Description

一种适用于智慧厨房系统的数字菜谱生成方法及装置

技术领域

本发明涉及计算机及通信技术领域，特别涉及一种适用于智慧厨房系统的数字菜谱生成方法及装置。

背景技术

随着科学技术的发展，人工智能技术已走进了人们的生活，尤其是走进了厨房。智能烹饪器具、厨房用机械臂等人工智能设备，可以越来越多取代人工劳动。智能烹饪器具和厨房用机械臂能够工作的前提，是有数字菜谱，厨房用机械臂可运行该数字菜谱，以根据该数字菜谱完成烹饪动作。那么，如何教快捷的生成数字菜谱，则是业内亟待解决的问题。

发明内容

本发明提供一种适用于智慧厨房系统的数字菜谱生成方法及装置，用以实现较快捷、准确的生成数字菜谱。

本发明提供一种适用于智慧厨房系统的数字菜谱生成方法，包括：

对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作；

按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序；

在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象；

根据替换后的目标对象，生成适用于机械臂的数字菜谱。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例可根据厨师的烹饪视频自动生成适用于机械臂的数字菜谱，可方便快捷的实现将真人烹饪视频转换成数字菜谱。本实施例实现了将真人烹饪视频中厨师所采用的物品更换为适合于机械臂采用的物品。

可选的，所述第二对象为一个或多个对象；或者，所述第二对象为空。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例通过第二对象的数量，实现了替换目标对象，增加目标对象和删除目标对象。

可选的，所述目标对象为物品；

所述方法还包括：

确定为物品的目标对象所属的物品类别；

所述在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象，包括：

在目标对象符合预设的物品类别时，以及符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例通过物品类别缩小了替换目标对象的范围，简化了与关联关系的匹配过程。

可选的，对人为烹饪视频进行多模态特征识别，至少包括下列之一：

对人为烹饪视频进行图像识别；

对人为烹饪视频进行语音识别；

对人为烹饪视频进行字幕识别。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例提供多种识别方式，以获取较多的信息。

可选的，当对人为烹饪视频进行至少两种多模态特征识别时，所述方法还包括：

将至少两种多模态特征识别后分别得到的物品和动作，进行彼此融合。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例中多种信息可以互相补充、互相融合，有助于生成更完整、准确的数字菜谱。

本发明提供一种适用于智慧厨房系统的数字菜谱生成装置，包括：

识别模块，用于对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作；

排序模块，用于按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序；

替换模块，用于在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象；

生成模块，用于根据替换后的目标对象，生成适用于机械臂的数字菜谱。

可选的，所述目标对象为物品；

所述装置还包括：

类别模块，用于确定为物品的目标对象所属的物品类别；

所述替换模块包括：

替换子模块，用于在目标对象符合预设的物品类别时，以及符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象。

可选的，所述识别模块至少包括下列之一：

图像识别子模块，用于对人为烹饪视频进行图像识别；

语音识别子模块，用于对人为烹饪视频进行语音识别；

文本识别子模块，用于对人为烹饪视频进行字幕识别。

可选的，所述装置还包括：

融合模块，用于将至少两种多模态特征识别后分别得到的物品和动作，进行彼此融合。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据替换后的目标对象，生成适用于机械臂的数字菜谱。

本发明提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述方法的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中适用于智慧厨房系统的数字菜谱生成方法流程图；

图2为本发明实施例中适用于智慧厨房系统的数字菜谱生成方法流程图；

图3为本发明实施例中适用于智慧厨房系统的数字菜谱生成方法流程图；

图4为本发明实施例中适用于智慧厨房系统的数字菜谱生成装置结构图；

图5为本发明实施例中适用于智慧厨房系统的数字菜谱生成装置结构图；

图6为本发明实施例中替换模块的结构图；

图7为本发明实施例中识别模块的结构图；

图8为本发明实施例中适用于智慧厨房系统的数字菜谱生成装置结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

相关技术中，适用于机械臂的数字菜谱，需要专业技术人员以写代码的方式生成。但是，编程人员可能不熟悉烹饪，且编写代码需要花费较多时间和人力。可能有自动生成数字菜谱的方案，但是该方案生成的数字菜谱可能不够准确。

为解决上述问题，本申请的发明人发现，有许多展示厨师烹饪过程的美食节目，通过对这些美食烹饪视频的识别和分析，自动生成适用于机械臂的数字菜谱。并且，根据关联关系替换数字菜谱中的目标对象，使得替换后的目标对象更适合于机械臂，也使得数字菜谱更准确。

参见图1，本实施例中适用于智慧厨房系统的数字菜谱生成方法包括：

步骤101：对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作。

步骤102：按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序。

步骤103：在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象。

步骤104：根据替换后的目标对象，生成适用于机械臂的数字菜谱。

本实施例针对机械臂的操控特点，对人为烹饪视频进行多模态特征识别，颜色特征、纹理特则、边缘特征、音频特征、文本特征等均可以是多模态特征，通过对上述一种或多种的多模态特征进行识别，可以识别出物品和动作。有别于适用于智能锅的数字菜谱，能够模拟人类的动作行为，实现配菜，菜肴制作和装盘自动化，是机械臂的特点和优势，因此，本实施例不仅识别人为烹饪视频中的物品，还有识别其中真人的烹饪动作。动作如：搅拌(鸡蛋)、切菜等。

在进行多模态特征识别过程中，得到识别结果的物品和动作时，得出识别结果的顺序不一定是视频播放顺序。所以，本实施例还按照视频播放顺序对物品和动作进行排序，这样得到的顺序更符合烹饪过程，机械臂按照该顺序抓取物品和执行动作，有利于更好的完成烹饪过程。

本实施例针对得到的物品和动作，生成适用于机械臂的可执行命令，并对可执行命令进行封装，生成适用于机械臂的数字菜谱。将这样的数字菜谱输入到机械臂的控制系统中，可控制机械臂通过完成该数字菜谱对应的烹饪过程，完成菜肴的制作。

本实施例实现对真人烹饪视频的智能分析，自动生成适用于机械臂的数字菜谱。生成菜谱的过程节省了大量人力且快捷，便于批量生成数字菜谱。

本实施例中的物品包括食材(含调料等)、器皿(如盘、碗等)、工具(如搅拌器等)和外部设备(如锅、电子称、油烟机、灶具等)等。

人为烹饪视频中的一些目标对象是适用于人的目标对象，可能不适用于机械臂。本申请的发明人发现这种情况，预先配置了关联关系，关联关系中的第一对象用于与目标对象匹配，为适用于真人的对象。关联关系中的第二对象为适合于机械臂的对象。用第二对象替换相应的目标对象，这样生成的数字菜谱更适合于机械臂执行，数字菜谱也更准确。

或者，第一对象是视频环境中出现的对象(例如蒸烤一体锅)。第二对象是实际应用场景中的对象(例如蒸锅，实际应用场景中可能没有蒸烤一体锅)。

本实施例中，所述第二对象可以是一个，也就是一对一的替换目标对象。例如，目标对象是筷子，筷子是适合于人用的工具，机械臂不适合使用筷子。第二对象是夹具，更适合机械臂使用。所以，可以用夹具替换筷子。所以根据夹具生成的数字菜谱，更有利于机械臂的执行。

第二对象可以是多个，用多个第二对象替换一个目标对象，相当于增加了对象。例如，目标对象是鸡蛋，在人为烹饪视频中厨师可以用手拿鸡蛋，而机械臂的夹爪不方便夹取鸡蛋，所以第二对象包括鸡蛋和鸡蛋夹，相当于增加了鸡蛋夹。并且，多个第二对象可以有顺序，如先拿鸡蛋夹，再借助鸡蛋夹夹取鸡蛋。根据鸡蛋夹-鸡蛋这样的第二对象和顺序生成的数字菜谱更准确，更适合于机械臂。

第二对象可以是空，相当于删除了目标对象。例如，在人为烹饪视频中厨师戴上了防热手套从烤箱里取出托盘，而机械臂不怕热，不需要戴防热手套，所以防热手套对应的第二对象为空，相当于删除了防热手套，这样生成的数字菜谱减少了机械臂的可执行命令和动作。

可选的，所述目标对象为物品。

所述方法还包括：步骤A1。

步骤A1：确定为物品的目标对象所属的物品类别。

所述步骤103包括：步骤A2。

步骤A2：在目标对象符合预设的物品类别时，以及符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象。

本实施例中预设的物品类别可以是工具、特定类别的食材和烹饪器皿等，主要替换成适合于机械臂使用的工具和烹饪器皿等。当目标对象符合预设的物品类别时，再将目标对象与关联关系中的第一对象进行匹配，可以减少匹配次数，提高匹配效率。

可选的，步骤101至少包括下列之一：步骤B1-步骤B3。

步骤B1：对人为烹饪视频进行图像识别。

步骤B2：对人为烹饪视频进行语音识别。

步骤B3：对人为烹饪视频进行字幕识别。

本实施例中，可以对单个视频帧进行逐帧识别，以识别物品。还可以对连续的多个视频帧进行识别，以识别动作。其中，可以预设有物品和动作的图像特征库。

本实施例可以将视频中的语音转换为文字，再从文字中识别出物品(主要是名词)和动作(主要是动词)。其中，可以预设有物品和动作的词库。

本实施例可以从视频中提取出字幕文字，再从文字中识别出物品和动作。

图像、语音和字幕的识别过程可以采用传统机器学习和深度学习等算法模型来实现。例如，利用深度学习模型提取图像特征，语义特征和文本特征，并将多模态特征聚合编码为该视频的压缩表示，再利用深度学习模型将视频的压缩表示解码成一个个机械臂的控制指令，进而生成数字菜谱。

可选的，当对人为烹饪视频进行至少两种多模态特征识别时，所述方法还包括：步骤C1。

步骤C1：将至少两种多模态特征识别后分别得到的物品和动作，进行彼此融合。

本实施例中，通过图像、语音和字幕分别识别出的物品和动作可能不完全相同，此时可进行相互配准和融合，如采用集成学习等多种融合算法。例如，通过图像识别得到物品盐，但是无法清除盐的分量。通过语音识别得到加1勺盐，再与图像识别结果结合，融合后的结果为1勺盐。又如，通过图像识别得到物品1，未得到物品2，通过语音识别得到物品2，则融合后的结果为物品1和物品2。又如，通过图像识别得到食材1，通过语音识别得到对食材1进行切丁的动作，图像展示了切丁后的食材1，但是未包含切丁的过程。则融合后的结果为食材1和对食材1进行切丁的动作。又如，通过图像识别得到物品1，通过语音识别得到物品2，以及语音中的语义为“如果用物品2会更好”，则融合后的结果为用物品2替换物品1。因此，融合处理可以包括：增加物品或动作、替换物品或动作、完善物品或动作的信息(如物品的分量等)和调整物品和动作的顺序等。

下面通过几个实施例详细介绍实现过程。

参见图2，本实施例中适用于智慧厨房系统的数字菜谱生成方法包括：

步骤201：对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作。

步骤202：按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序。

步骤203：确定为物品的目标对象所属的物品类别。

步骤204：判断所述物品类别是否属于预设的物品类别；在属于预设的物品类别时，继续步骤205；在不属于预设的物品类别时，继续步骤207。

步骤205：将目标对象与预设的关联关系所定义的第一对象进行匹配；在目标对象符合预设的关联关系所定义的第一对象时，继续步骤206；在目标对象不符合预设的关联关系所定义的第一对象时，继续步骤207。

步骤206：用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象。

步骤207：根据替换后的目标对象，生成适用于机械臂的数字菜谱。

参见图3，本实施例中适用于智慧厨房系统的数字菜谱生成方法包括：

步骤301：对人为烹饪视频进行多模态特征识别，识别出目标对象。该步骤可以进行视频、音频、字幕等多种识别方式。

步骤302：将至少两种多模态特征识别后分别得到的目标对象，进行彼此融合。

步骤303：按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序。

步骤304：确定为物品的目标对象所属的物品类别。

步骤305：判断所述物品类别是否属于预设的物品类别；在属于预设的物品类别时，继续步骤306；在不属于预设的物品类别时，继续步骤308。

步骤306：将目标对象与预设的关联关系所定义的第一对象进行匹配；在目标对象符合预设的关联关系所定义的第一对象时，继续步骤307；在目标对象不符合预设的关联关系所定义的第一对象时，继续步骤308。

步骤307：用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象。

步骤308：根据替换后的目标对象，生成适用于机械臂的数字菜谱。

上述实施例可根据实际需要进行自由组合。

通过以上描述介绍了适用于智慧厨房系统的数字菜谱生成实现过程，该过程可由装置实现，下面对该装置的内部结构和功能进行介绍。

参见图4，本实施例中适用于智慧厨房系统的数字菜谱生成装置包括：识别模块401、排序模块402、替换模块403和生成模块404。

识别模块401，用于对人为烹饪视频进行多模态特征识别，识别出目标对象，所述目标对象包括物品和/或动作。

排序模块402，用于按照所述人为烹饪视频的播放顺序，对所述目标对象进行初次排序。

替换模块403，用于在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，第二对象包括适用于机械臂的对象。

生成模块404，用于根据替换后的目标对象，生成适用于机械臂的数字菜谱。

可选的，所述目标对象为物品。

如图5所示，所述装置还包括：类别模块501。

类别模块501，用于确定为物品的目标对象所属的物品类别。

如图6所示，所述替换模块403包括：替换子模块601。

替换子模块601，用于在目标对象符合预设的物品类别时，以及符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象。

可选的，如图7所示，所述识别模块401至少包括下列之一：图像识别子模块701、语音识别子模块702和文本识别子模块703。

图像识别子模块701，用于对人为烹饪视频进行图像识别。

语音识别子模块702，用于对人为烹饪视频进行语音识别。

文本识别子模块703，用于对人为烹饪视频进行字幕识别。

可选的，如图8所示，所述装置还包括：融合模块801。

融合模块801，用于将至少两种多模态特征识别后分别得到的物品和动作，进行彼此融合。

本实施例提供一种适用于智慧厨房系统的数字菜谱生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据替换后的目标对象，生成适用于机械臂的数字菜谱。

本实施例提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种适用于智慧厨房系统的数字菜谱生成方法，其特征在于，包括：

根据预设的关联关系，在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，预设的关联关系中的第一对象用于与人为烹饪视频中的目标对象匹配，关联关系中的第二对象为适合于机械臂以及实际应用场景的对象；用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象，包括：将视频中出现的目标对象替换为实际应用场景中的对象；将视频中出现的目标对象替换为适合于机械臂的对象；将视频中出现的目标对象替换为具有先后执行顺序的多个第二对象；将视频中的目标对象替换为空；

根据替换后的目标对象，生成适用于机械臂的数字菜谱。

2.如权利要求1所述的方法，其特征在于，所述目标对象为物品；

所述方法还包括：

确定为物品的目标对象所属的物品类别；

3.如权利要求1所述的方法，其特征在于，对人为烹饪视频进行多模态特征识别，至少包括下列之一：

对人为烹饪视频进行图像识别；

对人为烹饪视频进行语音识别；

对人为烹饪视频进行字幕识别。

4.如权利要求3所述的方法，其特征在于，当对人为烹饪视频进行至少两种多模态特征识别时，所述方法还包括：

5.一种适用于智慧厨房系统的数字菜谱生成装置，其特征在于，包括：

替换模块，用于根据预设的关联关系，在目标对象符合预设的关联关系所定义的第一对象时，用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象；其中，预设的关联关系中的第一对象用于与人为烹饪视频中的目标对象匹配，关联关系中的第二对象为适合于机械臂以及实际应用场景的对象；用所述关联关系中与所述第一对象对应的第二对象，替换所述目标对象，包括：将视频中出现的目标对象替换为实际应用场景中的对象；将视频中出现的目标对象替换为适合于机械臂的对象；将视频中出现的目标对象替换为具有先后执行顺序的多个第二对象；将视频中的目标对象替换为空；生成模块，用于根据替换后的目标对象，生成适用于机械臂的数字菜谱。

6.如权利要求5所述的装置，其特征在于，所述目标对象为物品；

所述装置还包括：

类别模块，用于确定为物品的目标对象所属的物品类别；

所述替换模块包括：

7.如权利要求5所述的装置，其特征在于，所述识别模块至少包括下列之一：

图像识别子模块，用于对人为烹饪视频进行图像识别；

语音识别子模块，用于对人为烹饪视频进行语音识别；

文本识别子模块，用于对人为烹饪视频进行字幕识别。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种适用于智慧厨房系统的数字菜谱生成装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据替换后的目标对象，生成适用于机械臂的数字菜谱。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至4中任一项所述方法的步骤。