CN117056560B

CN117056560B - 一种云菜谱的自动生成方法、装置以及存储介质

Info

Publication number: CN117056560B
Application number: CN202311317039.1A
Authority: CN
Inventors: 王新春; 曾峰; 周建东
Original assignee: Discovery Technology Shenzhen Co ltd
Current assignee: Discovery Technology Shenzhen Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-02-06
Anticipated expiration: 2043-10-12
Also published as: CN117056560A

Abstract

本发明公开了一种云菜谱的自动生成方法、装置以及存储介质，其中方法包括：在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流；对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版；将烹饪流程简版发送给用户并获取用户所反馈的修正信息，根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台。通过本发明能够实现对菜谱的半自动录制的功能，能够在保证菜谱内容完全符合用户需求的前提下，有效减少用户对菜谱的编译工作，并且引入的设备状态信息能够精准符合烹饪需求，方便将云菜谱的步骤流程在其它设备上进行完美复现。

Description

一种云菜谱的自动生成方法、装置以及存储介质

技术领域

本发明属于智能烹饪技术领域，具体涉及一种云菜谱的自动生成方法、装置以及存储介质。

背景技术

智能烹饪是指通过人工智能技术实现烹饪过程自动化的设备，拥有炒、煎、煮、炖、蒸、煲等功能。用户仅需将准备的食物原材料及调料手动投进智能厨电中，轻触“开始”操作功能键，智能厨电即可实现自动烹饪的过程。智能厨电可从自动化程度、烹饪工艺、出菜份量、应用场景等角度进行分类。

在中国餐饮企业标准化发展趋势的推动下，选择使用智能厨电烹饪的餐饮企业数量也在不断增多，如快餐厅、酒楼等，智能炒菜机可保障餐饮企业上菜速度及菜品质量，有助于餐饮企业形成标准化服务体系。此外，随着“无人餐厅”、“智慧餐厅”等概念接连兴起，餐饮智能化趋势愈加明显，商民两用的智能厨电需求量不断提高。

在现有的智能厨电领域，往往在设定烹饪流程后通过简单的温度反馈来对智能厨电进行简单的控制，而在进行菜谱的编撰过程当中，也往往需要用户根据智能烹饪设备上的参数调整菜谱的描述方式，菜谱的录制过程将会变得十分复杂，不利于云端菜谱共享技术的发展。

发明内容

有鉴于此，本发明的目的在于提供一种云菜谱的自动生成方法、装置以及存储介质，能够实现对菜谱的半自动录制的功能，能够在保证菜谱内容完全符合用户需求的前提下，有效减少用户对菜谱的编译工作，并且引入的设备状态信息能够精准符合烹饪需求，方便将云菜谱的步骤流程在其它设备上进行完美复现。

为达到上述目的，本发明提供如下技术方案：

本发明所提供的一种云菜谱的自动生成方法，包括：

在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流；

对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版；

将烹饪流程简版发送给用户并获取用户所反馈的修正信息，根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台。

优选的，在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流包括：

在获取到用户所下达的菜谱生成指令后，控制预设的摄像装置进入录制状态，并记录所录制的视频图像帧与各时间节点之间的第一对应关系；

通过物联网获取所存在的烹饪设备的设备状态信息，并建立设备状态信息与各时间节点之间的第二对应关系；

根据第一对应关系以及第二对应关系建立视频图像帧与设备状态信息间的第三对应关系；

按照第三对应关系输出由设备状态信息与视频图像帧结合生成的烹饪数据流。

优选的，对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版包括：

根据烹饪数据流建立烹饪流程时间线，并根据烹饪数据流中的设备状态信息对烹饪流程时间线进行设备烹饪流程的补充；

对烹饪数据流中的烹饪操作视频进行分析，确定烹饪操作视频中所存在的第一类识别目标以及第二类识别目标并对其进行分类标注；

根据烹饪操作视频确定第一类识别目标以及第二类识别目标之间的交互状态，并根据交互时对应对象的目标类型及状态判断用户的具体烹饪行为；

确定用户具体烹饪行为在烹饪操作视频内对应发生的起止时间，并在烹饪流程时间线上生成对应的时间段-具体烹饪行为的判定标记；

将烹饪流程时间线按照预设的固定模式进行处理输出，得到烹饪流程简版。

优选的，对烹饪数据流中的烹饪操作视频进行分析，确定烹饪操作视频中所存在的第一类识别目标以及第二类识别目标并对其进行分类标注包括：

通过预设的第一类神经网络模型对烹饪操作视频中所存在的第一类识别目标进行识别，并对第一类识别目标进行分类标注；

通过预设的第二类神经网络模型对烹饪操作视频中所存在的第二类识别目标进行识别，并确定所存在的第二类识别目标的目标类型，其中，第二类识别目标包括烹饪器具、烹饪设备、食材、调料以及容器；

确定第二类识别目标所对应的目标类型以及该目标类型所映射的关联特征库作为识别结果，并利用识别结果对第二类识别目标进行分类标注。

优选的，根据烹饪操作视频确定第一类识别目标以及第二类识别目标之间的交互状态，并根据交互时所对应对象的目标类型及状态判断用户的具体烹饪行为包括：

确定第一类识别目标产生协同动作的第二类识别目标，并确定该第二类识别目标所对应的标注内容、该第二类识别目标的状态以及与其他第二类识别目标的结合状态；

其中，第二类识别目标的状态包括食材的处理形态，第二类识别目标与其他第二类识别目标的结合状态包括食材与容器、食材与烹饪设备以及食材与烹饪器具的结合状态；

根据第二类识别目标对应的标注内容确定该第二类识别目标的目标类型以及对应映射的关联特征库，并根据关联特征库确定识别目标对应的多种烹饪步骤特征；

根据第二类识别目标与第一类识别目标之间以及其他第二类识别目标之间的交互状态，基于该第二类识别目标所对应的多种烹饪步骤特征确定出用户的具体烹饪行为。

优选的，对烹饪数据流进行分析并确定用户烹饪行为还包括：

确定烹饪数据流中所存在的多段烹饪操作视频，并确定构成任意一段烹饪操作视频的视频帧序列；

采用VGG-16神经网络提取任意视频帧中存在的深度特征向量矩阵/>，并构成基于烹饪操作视频帧变换的深度特征矩阵序列/>；

将深度特征矩阵序列输入预先训练的S2VT模型，得到关于概况烹饪操作视频内容的行为词序列/>的条件概率/>：

其中，n表示待分析的烹饪操作视频的视频帧序列长度n，m表示行为词序列长度；

选择概率最高的一个行为词作为该段烹饪操作视频的主体烹饪行为；

确定该段烹饪操作视频中存在的用户人体和参与烹饪工作的识别目标，基于主体烹饪行为生成具有主谓宾关系的用户烹饪行为。

优选的，S2VT模型通过以下方式训练得到：

通过VGG-16神经网络获取利用行为词标注过后的用于训练的烹饪操作视频的视频帧所对应的卷积特征并基于该饪操作视频构建深度特征矩阵序列；

将深度特征矩阵序列按时序输入第一层LSTM算子进行特征建模；

在第二层LSTM算子中通过LSTM网络学习视频帧序列与行为词序列之间的映射关系，生成特征矩阵序列和行为词之间的关联建模。

为达到以上目的，本发明还提供了一种云菜谱的自动生成装置，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述方法的步骤。

为达到以上目的，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明至少取得了以下有益效果：

1. 实现了对菜谱的半自动录制的功能，能够在保证菜谱内容完全符合用户需求的前提下，有效减少用户对菜谱的编译工作，并且引入的设备状态信息能够精准符合烹饪需求，方便将云菜谱的步骤流程在其它设备上进行完美复现。

2. 实现基于多个第二类识别目标各自对应关联特征库以及第二类识别目标与第二类识别目标、第二类识别目标与第一类识别目标之间的交互关系确定用户的具体烹饪行为。

本发明的其他优点、目标和特征将在随后的说明书中进行阐述，并且在某种程度上对本领域技术人员而言是显而易见的，或者本领域技术人员可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例中一种云菜谱的自动生成方法的步骤流程图；

图2为本发明实施例中烹饪流程简版生成的步骤流程图；

图3为本发明实施例中烹饪行为识别方法的逻辑结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明所提供的一种云菜谱的自动生成方法，参照图1，包括：

步骤S1、在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流；

步骤S2、对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版；

步骤S3、将烹饪流程简版发送给用户并获取用户所反馈的修正信息，根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台。

上述技术方案的工作原理和有益效果为：在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流，其中烹饪操作视频通过预设在厨房的至少一个摄像头录制得到，通过预设置的物联网获取厨房内参与烹饪工作的烹饪设备上的设备状态信息，其中，设备状态信息包括设备自显示的状态参数以及设备上预设传感器测得实际的状态参数，状态参数包括但不限于温度、压强、湿度、力矩、微波频率、输出功率、电压及电流、火力及动力等级等等；随后对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版，通过视频分析需要人工参与的部分内容，通过设备状态信息确定所需要设备参与的部分内容，方便实现人机一体化的烹饪工作的步骤解析；将烹饪流程简版发送给用户并获取用户所反馈的修正信息，其中，修正信息包括但不限于对烹饪流程简版中错误识别的步骤的修改信息、用户需要自行设置的调料种类信息、食材种类信息、以及所放入食材和调料的份量信息，最后根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台。从而实现了对菜谱的半自动录制的功能，能够在保证菜谱内容完全符合用户需求的前提下，有效减少用户对菜谱的编译工作，并且引入的设备状态信息能够精准符合烹饪需求，方便将云菜谱的步骤流程在其它设备上进行完美复现。

在一个优选实施例中，参照图2，在根据用户烹饪行为以及设备状态信息生成烹饪流程简版时，特别需要对烹饪设备的型号进行同步记录，从而将其作为标准的烹饪设备。方便云端用户在进行同样的烹饪过程当中，对自身所拥有的不同于标准的烹饪设备型号的目标烹饪设备上多项烹饪参数进行基于烹饪任务所对应的标准烹饪设备的相对调整。从而方便云端客户对云菜谱进行完美的复现。

在一个优选实施例中，在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流包括：

上述技术方案的工作原理和有益效果为：在获取到用户所下达的菜谱生成指令后，控制预设的摄像装置进入录制状态，并记录所录制的视频图像帧与各时间节点之间的第一对应关系，实现对用户烹饪操作的录制；通过物联网获取所存在的烹饪设备的设备状态信息，并建立设备状态信息与各时间节点之间的第二对应关系；根据第一对应关系以及第二对应关系建立视频图像帧与设备状态信息间的第三对应关系；按照第三对应关系输出由设备状态信息与视频图像帧结合生成的烹饪数据流。通过以上的技术方案，最终实现设备状态信息与用户实际操作内容的流程的排序，避免出现烹饪步骤错乱的问题。

在一个优选实施例中，参照图2及图3，对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版包括：

上述技术方案的工作原理和有益效果为：根据烹饪数据流建立烹饪流程时间线，并根据烹饪数据流中的设备状态信息对烹饪流程时间线进行设备烹饪流程的补充，从而实现对随时间变换的阶段性的设备工作状况的复现；对烹饪数据流中的烹饪操作视频进行分析，确定烹饪操作视频中所存在的第一类识别目标以及第二类识别目标并对其进行分类标注，其中，第一类识别目标包括进行烹饪工作的用户主体，用户主体的数量可为一个或者多个，第二类识别目标即参与烹饪工作的烹饪设备、烹饪厨具、食材、调料以及容器等等，从而实现对参与烹饪工作的关键性物品的识别；根据烹饪操作视频确定第一类识别目标以及第二类识别目标之间的交互状态，并根据交互时对应对象的目标类型及状态判断用户的具体烹饪行为，例如确定第一类识别目标--用户人体与第二类识别--铲子之间存在交互，判断的逻辑即当用户肢节末端（这里主要特指用户的手部）与铲子的把手位置出现特征重叠，并且两者运动时出现协同状态时即判断用户人体与铲子之间存在交互，按照预设的符合日常规律的判断逻辑，确定用户在利用铲子进行翻炒、铲起或者按压等烹饪步骤，进一步的可根据用户手部的具体运动状态以及铲子的空间位置状态确定，从而实现对用户的烹饪行为的识别检测。确定用户具体烹饪行为在烹饪操作视频内对应发生的起止时间，并在烹饪流程时间线上生成对应的时间段-具体烹饪行为的判定标记，从而实现对随时间变换的阶段性的用户操作的烹饪步骤的复现与记录，最后将烹饪流程时间线按照预设的固定模式进行处理输出，得到烹饪流程简版，该烹饪流程简版以用户的烹饪行为以及设备的运行状态信息结合生成，能够实现大致的烹饪流程的模板输出。

在一个优选实施例中，参照图3，对烹饪数据流中的烹饪操作视频进行分析，确定烹饪操作视频中所存在的第一类识别目标以及第二类识别目标并对其进行分类标注包括：

上述技术方案的工作原理和有益效果为：在对烹饪操作视频进行识别的过程当中，通过预设的第一类神经网络模型对烹饪操作视频中所存在的第一类识别目标进行识别，并对第一类识别目标进行分类标注，从而确定视频图像中第一类识别目标即用户主体的位置；通过预设的第二类神经网络模型对烹饪操作视频中所存在的第二类识别目标进行识别，并确定所存在的第二类识别目标的目标类型，其中，第二类识别目标包括烹饪器具、烹饪设备、食材、调料以及容器，从而确定视频图像中第二类识别目标的位置，进行多目标的检测工作；确定第二类识别目标所对应的目标类型以及该目标类型所映射的关联特征库作为识别结果，并利用识别结果对第二类识别目标进行分类标注，其中包括对烹饪器具的识别，确定画面中存在的烹饪器具即铲子、勺子、漏勺、筷子、夹子以及菜板刀具等等，确定画面中存在的烹饪设备例如智能烹饪锅、电饭煲、破壁机、电冰箱、微波炉以及烤箱等等，确定画面中存在的食材例如土豆、西红柿、玉米、莲藕以及青菜等等，确定画面中添加的调料，调料所具备的特征较为细微难以进行识别，主要根据用户手部与预设的调料位置的交互状况确定用户进行了调料添加的一个烹饪行为，具体添加的什么调料可根据预设的不同位--不同调料的映射关系确定用户添加的什么调料，或者对调料包装上的文字进行识别确定用户所添加的调料的目标类型，亦或者直接空出调料的相关内容，等待用户所反馈的修正信息来对菜谱中相关内容进行修正补充，在确定所识别的第二类识别目标的目标类型后，提取第二类识别目标所映射的关联特征库，其中，关联特征库中记录了第二类识别目标的关键特征、状态对比参照特征、步骤识别特征以及步骤结合等相关信息，从而方便根据此类信息确定该第二类识别目标的关键特征位置、物品状态、相关步骤等相关信息，例如，对于烹饪设备微波炉，确定微波炉的关键特征--开关位置，在进行识别的过程当中，用户手部与开关位置产生交互，即能够确定用户可能对微波炉进行了开关操作，能够方便对烹饪步骤中设备状态信息以及用户操作步骤进行基于时间线的对齐调整；又例如对于食材土豆，确定土豆的状态对比参照特征，土豆相关的关联特征库中包括了土豆的片、丁、块、丝等相关的状态对比参照特征，在与刀具以及菜板的交互过程中，将会发生状态的改变，方便对预处理后的食材进行识别定位，避免因为外形状态发生改变而使食材的位置发生丢失。又例如对于任意食材，具有与容器相结合的步骤结合特征，当出现与容器进行交互时，确定两者出现结合关系，在出现结合关系后又能产生新的关联特征，例如步骤识别特征--对容器进行翻转以达到对食材进行倾倒的目的，能够确定用户的烹饪行为（把XX食材从XX容器倒入XX），从而根据所识别的第二类识别目标能够确定具体的烹饪行为。通过对第二类识别目标以及第一类识别目标的识别以及标记方便对识别目标之间的交互情况进行记录，并为基于关联特征库对用户烹饪行为的识别打下了基础。

在一个优选实施例中，参照图3，根据烹饪操作视频确定第一类识别目标以及第二类识别目标之间的交互状态，并根据交互时所对应对象的目标类型及状态判断用户的具体烹饪行为包括：

上述技术方案的工作原理和有益效果为：在根根据第一类识别目标以及第二类识别目标之间的交互状态判断用户的具体烹饪行为的过程当中，首先确定第一类识别目标产生协同动作的第二类识别目标，并确定该第二类识别目标所对应的标注内容、该第二类识别目标的状态以及与其他第二类识别目标的结合状态，从而确定用户正在进行的具体烹饪行为所对应发生的主体对象的内容，例如根据标准内容确定与用户发生协同动作的厨具能够确定用户所进行的具体烹饪行为包括切、砍、片、敲、夹、炒、舀、倒、盖、起、拍等等一系列的动作特征，具体根据第二类识别目标的目标类型所对应的关联特征库而定，其中，第二类识别目标的状态以及与其他第二类识别目标的结合状态包括容器与食材的结合状态，容器与烹饪完成后的菜品的结合状态，铲子、勺子、漏勺分别与食材的结合状态，用以结合识别起锅及下锅的行为，又例如烹饪锅与水、食用油的结合状态，具体根据水和食用油占烹饪锅内部的容积来作为判定下一步烹饪行为的依据，例如半锅油状态下食材，默认烹饪步骤为油炸该食材。其中，第二类识别目标的状态包括食材的处理形态（块、丝、片、丁以及食材调料混合状态等等），第二类识别目标与其他第二类识别目标的结合状态包括食材与容器、食材与烹饪设备以及食材与烹饪器具的结合状态，具体内容上文已进行相对应的内容陈述。根据第二类识别目标对应的标注内容确定该第二类识别目标的目标类型以及对应映射的关联特征库，并根据关联特征库确定识别目标对应的多种烹饪步骤特征，从而确定每一个第二类识别目标的目标类型以及对应映射的关联特征库，然后根据关联特征库与关联特征库之间的关系，确定出具有相关性的烹饪步骤特征。根据第二类识别目标与第一类识别目标之间以及其他第二类识别目标之间的交互状态，基于该第二类识别目标所对应的多种烹饪步骤特征确定出用户的具体烹饪行为，例如，对于刀具的关联特征库内包括与之关联的其他第二类识别目标菜板，更包括刀具摆放状态与烹饪步骤特征的对应关系，例如对于刀具正放运动情况下对应烹饪步骤特征切，对于刀具平放运动情况下对应烹调步骤特征拍，而食材在刀具执行烹饪步骤特征切的情况下变换形态成块、丝、片、丁，在刀具执行烹饪步骤特征拍的情况下变换形态成碎、末、泥，具体情况根据对食材的状态识别结果为准。从而实现基于多个第二类识别目标各自对应关联特征库以及第二类识别目标与第二类识别目标、第二类识别目标与第一类识别目标之间的交互关系确定用户的具体烹饪行为。

在一个具体实施例中，用户进行名为“番茄炒蛋”的菜谱录制工作，步骤识别过程如下：

步骤1、将番茄切成块状（在进行识别的过程中，视频中出现整个的食材--番茄，番茄所对应的关联特征库内具有状态类特征，即在刀具的作用下形成块、片、丁，用户利用刀具将番茄进行处理，即能够确定番茄发生状态变化，在工作完成后对菜板上的番茄进行识别，确定番茄已成块，则确定步骤“用户用刀将番茄切成块状”）；

步骤2、将葱切段、将蒜切片（识别过程同上）；

步骤3、打两个鸡蛋在碗里（在进行识别的过程中，视频出现用户手部拿起鸡蛋的画面，具有外壳的鸡蛋所对应的关联特征库内具有关于鸡蛋的状态类特征，即液体类鸡蛋（进行敲击动作后往容器内进行动作），固体类鸡蛋（进行敲击后用户手部执行剥离动作并有蛋壳脱落，并根据颜色区分皮蛋和开水蛋），确定用户在进行敲击后往容器内进行动作，则确定步骤“用户打1个鸡蛋在容器碗里”，数量根据重复次数进行评判）；

步骤4、打开烹饪设备燃气灶（在进行识别的过程中，出现用户手部触碰关键特征位置--燃气灶开关，且根据设备参数信息确定气流计出现流动以及温度上升，根据气流速度判定火力等级例如二级，则确定步骤“用户打开燃气灶，并调整火力至二级火力”）；

步骤5、倒入菜油（在进行识别的过程中，出现用户提起菜油桶往锅内倒入的画面，在识别出菜油桶后，能够确定菜油桶所对应的动作--倒入，倒入对像为锅，倒入数量根据菜油桶内损失刻度判定，或者直接空出根据后续用户的修正信息确定，则确定步骤“用户往锅内倒入菜油ml”）；

步骤6、时间空格，确定时长S后，放入蒜片（根据所锁定的蒜片位置确定所放入的内容），倒入西红柿块，识别动作将西红柿块倒入锅内，识别动作用户手部与铲子发生动作协同，确定烹饪步骤翻炒，记录翻炒动作时长；

步骤7、番茄起锅（确定铲子动作抬起，同时铲子与容器协同，铲子所盛放内容倒入容器，或者用户抬起并翻转锅至容器上方，往容器内倒入炒制过程锅中存在的油、蒜片、番茄，确定起锅动作，主体为番茄，确定动作“番茄炒制起锅”，并锁定起锅动作之前对应的视频图像中锅内番茄的状态图像，将其作为“起锅”动作的参考，生成“番茄炒制至状态图像，起锅”，亦或者根据番茄下锅时长记录生成“番茄炒制S后，起锅”）；

步骤8、倒入菜油（识别过程如上，不再赘述）；

步骤9、倒入打好的两个鸡蛋（识别过程如上，不在赘述）；

步骤10、炒制鸡蛋S后或者炒制鸡蛋至锅内鸡蛋状态图像后，倒入炒制完成的番茄，倒入调料1，倒入调料2，放入事先处理好的葱段，炒制S后，起锅完成。

在一个优选实施例中，对烹饪数据流进行分析并确定用户烹饪行为还包括：

上述技术方案的工作原理和有益效果为：为了简化识别的步骤逻辑，引入深度神经网络模型对用户的动作进行识别，具体包括：确定烹饪数据流中所存在的多段烹饪操作视频，并确定构成任意一段烹饪操作视频的视频帧序列；采用VGG-16神经网络提取任意视频帧/>中存在的深度特征向量矩阵/>，并构成基于烹饪操作视频帧变换的深度特征矩阵序列/>；将深度特征矩阵序列输入预先训练的S2VT模型，得到关于概况烹饪操作视频内容的行为词序列/>的条件概率/>：

其中，n表示待分析的烹饪操作视频的视频帧序列长度n，m表示行为词序列长度；选择概率最高的一个行为词作为该段烹饪操作视频的主体烹饪行为；最后确定该段烹饪操作视频中存在的用户人体和参与烹饪工作的识别目标，基于主体烹饪行为生成具有主谓宾关系的用户烹饪行为。上述技术方案主要对用户的动作进行识别，预先对于翻炒、切、舀起、倒入等等相关动作进行基于深度神经网络模型的学习，然后进行识别确定用户的具体动作，然后基于动作的对象，例如第二类识别目标（食材）或者第二类识别目标（容器与食材结合体）等等，确定倒入的是容器内食材，翻炒的目标也是锅内食材。从而简化了对烹饪动作的识别过程。

在一个优选实施例中，S2VT模型通过以下方式训练得到：

上述技术方案的工作原理和有益效果为：在对LSTM算子进行设计时，假设在i时刻输入的深度特征矩阵为，对应的隐藏层状态参数时是/>，而记忆单元的状态参数是/>，则在i时刻LSTM单元中的公式如下：

其中，、/>、/>、/>分别表示LSTM的输入门、遗忘门、输出门以及输入调制栅，对应预设的各门偏置向量为/>、/>、/>以及/>；/>表示n个隐藏层状态参数；表示输入或者隐藏层状态参数a到门b的权重矩阵；/>为sigmoid函数；/>为双曲正切函数；/>为逐元素点积运算（element-wise pro-duct）。通过上述公式，S2VT模型依次迭代求出各时刻深度特征矩阵的隐藏层参数，并进一步求出隐藏层参数关于行为词/>的条件概率/>，据此对上文提到的条件概率公式进行改写得到：

改写后的公式更符合S2VT模型的计算模式，从而实现对S2VT模型的训练。

一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述方法的步骤。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的云菜谱自动生成方法中的步骤。例如，所述处理器可执行包括步骤：在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流；对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版；以及将烹饪流程简版发送给用户并获取用户所反馈的修正信息，根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台。

该装置以通用计算设备的形式表现。该装置的组件可以包括但不限于：上述至少一个处理器、上述至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。总线表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储器可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。存储器还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。该装置也可以与一个或多个外部设备 (例如破壁机、智能烹饪锅、烤箱以及微波炉、指向设备等)通信，还可与一个或者多个使得用户能与该装置交互的设备通信，和/或与使得该装置能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口或者无线网口进行。并且，该装置还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。

为达到以上目的，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任意方法的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种云菜谱的自动生成方法，其特征在于，包括：

将烹饪流程简版发送给用户并获取用户所反馈的修正信息，根据修正信息以及烹饪流程简版生成菜谱并共享至云端平台；

所述在获取到用户所下达的菜谱生成指令后，根据所录制的烹饪操作视频以及设备状态信息生成烹饪数据流包括：

按照第三对应关系输出由设备状态信息与视频图像帧结合生成的烹饪数据流；

所述对烹饪数据流进行分析并确定用户烹饪行为，根据用户烹饪行为以及设备状态信息生成烹饪流程简版包括：

将烹饪流程时间线按照预设的固定模式进行处理输出，得到烹饪流程简版；

所述根据烹饪操作视频确定第一类识别目标以及第二类识别目标之间的交互状态，并根据交互时所对应对象的目标类型及状态判断用户的具体烹饪行为包括：

根据第二类识别目标与第一类识别目标之间以及其他第二类识别目标之间的交互状态，基于该第二类识别目标所对应的多种烹饪步骤特征确定出用户的具体烹饪行为；

所述对烹饪数据流进行分析并确定用户烹饪行为还包括：

2.根据权利要求1所述的一种云菜谱的自动生成方法，其特征在于，所述对烹饪数据流中的烹饪操作视频进行分析，确定烹饪操作视频中所存在的第一类识别目标以及第二类识别目标并对其进行分类标注包括：

3.根据权利要求1所述的一种云菜谱的自动生成方法，其特征在于，所述S2VT模型通过以下方式训练得到：

通过VGG-16神经网络获取利用行为词标注过后的用于训练的烹饪操作视频的视频帧所对应的卷积特征并基于该烹饪操作视频构建深度特征矩阵序列；

4.一种云菜谱的自动生成装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至3中任一项所述的方法。

5.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述的方法。