CN111383138A

CN111383138A - 餐饮数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111383138A
Application number: CN202010149635.3A
Authority: CN
Inventors: 张菁芸; 郭润增; 王少鸣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-07
Anticipated expiration: 2040-03-06
Also published as: CN111383138B

Abstract

本申请涉及一种餐饮数据处理方法、装置、计算机设备和存储介质。所述方法包括：当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；将用餐评价信息发送至商户终端并显示。采用本方法能够提高餐饮机器人的资源利用率。

Description

餐饮数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种餐饮数据处理方法、装置、计算机设备、存储介质和餐饮机器人。

背景技术

随着人工智能机器人技术的发展，出现了各种智能服务机器人技术。目前，餐饮企业开始使用餐饮机器人来代替服务员来进行餐饮服务。目前的餐饮行业服务机器人只能进行简单下单操作，并且需要用户通过手机进行支订单支付，从而导致餐饮服务机器人的资源利用率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高餐饮服务机器人资源利用率的餐饮数据处理方法、装置、计算机设备、存储介质和和餐饮机器人。

一种餐饮数据处理方法，所述方法包括：

当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；

对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；

将用餐评价信息发送至商户终端并显示。

一种餐饮机器人，所述餐饮机器人包括：

数据采集器，与数据处理器相连，用于采集用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像，将用餐行为数据发送数据处理器；

数据处理器，与数据传输器相连，用于对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息，将用餐评价信息发送数据传输器；

数据传输器，与商户终端相连，用于将用餐评价信息发送商户终端

一种餐饮数据处理装置，所述装置包括：

事件触发模块，用于当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；

信息确定模块，用于对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；

信息发送模块，用于将用餐评价信息发送至商户终端并显示。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将用餐评价信息发送至商户终端并显示。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将用餐评价信息发送至商户终端并显示。

上述餐饮数据处理方法、装置、计算机设备、存储介质和餐饮机器人，通过在用餐完成时，餐饮机器人获取到用餐行为数据，对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，从而根据语音识别结果和图像识别结果确定用餐评价信息，即能够使用餐饮机器人识别用户的用餐行为数据得到用户的用餐评价信息，能够提高餐饮机器人的资源利用率，同时使用语音识别结果和图像识别结果来确定用餐评价信息，提高了得到的用餐评价信息的准确性。

附图说明

图1为一个实施例中餐饮数据处理方法的应用环境图；

图2为一个实施例中餐饮数据处理方法的流程示意图；

图3为一个实施例中订餐的流程示意图；

图4为一个实施例中买单的流程示意图；

图5为一个实施例中确定用餐评价信息的流程示意图；

图6为一个具体实施例中分析用餐状况的示意图；

图7为一个实施例中确定第一评价信息的流程示意图；

图8为一个具体实施例中降噪的流程示意图；

图9为一个实施例中确定第二评价信息的流程示意图；

图10为图9实施例中残差网络的结构示意图；

图11为一个实施例中确定第三评价信息的流程示意图；

图12为一个实施例中餐饮机器人的总体架构示意图；

图13为一个具体实施例中用户就餐的流程示意图；

图14为一个实施例中餐饮机器人的结构示意图；

图15为一个实施例中餐饮数据装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉、语音识别和自然语言处理等技术，具体通过如下实施例进行说明:

本申请提供的餐饮数据处理方法，可以应用于如图1所示的应用环境中。其中，餐饮机器人102通过网络与商户终端104进行通信，优先地，可以使用无线网络进行通信。餐饮机器人102当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；餐饮机器人102将用餐评价信息发送至商户终端104并显示。其中，商户终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种餐饮数据处理方法，以该方法应用于图1中的餐饮机器人为例进行说明，包括以下步骤：

S202，当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像。

其中，用餐完成事件是指完成就餐的事件，比如，可以通过语音触发用餐完成事件。用餐行为数据是指在用餐时和用餐结束后的行为数据，该用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像中的至少一种。用餐语音是指餐饮机器人采集到的用餐者用餐时的语音。餐后菜盘图像是指餐饮机器人采集到的用餐完成时菜盘的图像。餐后人脸图像是指餐饮机器人采集到的用餐完成时用餐者的人脸图像。

具体地，当餐饮机器人接收到用餐完成的语音时，检测到触发用餐完成事件。餐饮机器人响应用餐完成事件，获取用餐行为数据，即获取到该用餐者对应的用餐语音，并采集到餐后菜盘图像和餐后人脸图像。在一个实施例中，用餐者也可以通过点击餐饮机器人中的用餐完成按钮等触发用餐完成事件。

S204，对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息。

其中，语音识别是指使用语音识别算法将语音转换为文字，其中，语音识别算法可以是GMM(Adaptive background mixture models for real-time tracking，高斯混合模型)、LSTM(Long Short-Term Memory，长短期记忆网络)和HMM(Hidden Markov Model，隐马尔可夫模型)等。图像识别是指使用图像识别算法将图像进行识别，比如，可以识别到餐后菜盘图像中菜品的标识，餐后人脸图像中人脸的表情等等。该图像识别算法可以使用ResNet(Residual Network，残差网络)、主动形状模型(ASM，active shape model)等。用餐评价信息用于反映用餐者对用餐的满意度。

具体地，餐饮机器人使用语音识别算法对用餐语音进行语音识别，得到语音识别结果。并使用图像识别算法分别对餐后菜盘图像和餐后人脸图像进行图像识别，得到图像识别结果。根据语音识别图像和图像识别结果确定用餐评价信息。在一个实施例中，当未采集到用餐语音时，可以直接对餐后菜盘图像和餐后人脸图像进行图像识别，根据图像识别结果确定用餐评价信息。

S206，将用餐评价信息发送至商户终端并显示。

具体地，餐饮机器人将用餐评价信息发送至商户终端，商户终端接收到用餐评价信息进行显示。

在上述餐饮数据处理方法中，通过在用餐完成时，餐饮机器人获取到用餐行为数据，然后对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，从而根据语音识别结果和图像识别结果确定用餐评价信息，即能够使用餐饮机器人识别用户的用餐行为数据得到用户的用餐评价信息，能够提高餐饮机器人的资源利用率，同时使用语音识别结果和图像识别结果来确定用餐评价信息，提高了得到的用餐评价信息的准确性。

在一个实施例中，如图3所示，在步骤S202之前，即在检测到触发用餐完成事件，响应用餐完成事件之前，还包括步骤：

S302，当检测到触发唤醒事件时，响应唤醒事件，获取唤醒语音。

其中，唤醒事件是指触发唤醒餐饮机器人进行语音会话的事件。唤醒语音是指唤醒餐饮机器人的语音。

具体地，餐饮机器人当检测到触发唤醒事件时，响应唤醒事件，获取到唤醒语音。比如，用餐者对餐饮机器人说“我需要下单”，此时餐饮机器人采集到这句语音时，触发唤醒事件。

S304，将唤醒语音输入到语音识别模型中，得到输出的唤醒文本，将唤醒文本与预设唤醒关键词进行匹配。

其中，语音识别模型是预设根据历史语音和对应的文本使用语音识别算法建立的模型。比如，可以基于GMM-HMM进行语音识别。唤醒文本是指唤醒语音对应的文本。预设唤醒关键词是指能够使餐饮机器人进入语音会话状态的关键词，该关键词是预先设置好的。比如，预设唤醒关键词可以是“下单”，“点餐”等等。

S306，当匹配一致时，显示订餐界面，当检测到通过订餐界面触发的订餐完成事件时，响应于订餐完成事件，获取订单信息，将订单信息发送到商户终端并显示。

其中，订餐界面用于显示用餐者可以下单的餐品。订餐完成事件是指用餐者完成订餐的事件。订单信息是指用餐者下单的餐品相关信息，可以包括餐品标识、餐品价格和下单时间等等。

具体地，当唤醒文本中的词与预设唤醒关键词存在匹配一致的词时，此时餐饮机器人进入会话状态并显示订餐界面。其中，进入会话状态是指餐饮机器人可以实时进行语音问答的状态。比如，用户可以根据订餐界面与餐饮机器人进行语音对话，从而进行订餐。餐饮机器人检测到通过订餐界面触发的订餐完成事件，比如，餐饮机器人接收到点餐完成的语音时，触发的订餐完成事件。响应于订餐完成事件，获取订单信息，将订单信息发送商户终端，商户终端接收订单信息并进行显示。

在上述实施例中，餐饮机器人可以在检测到触发唤醒事件时，获取唤醒语音，将唤醒语音输入到语音识别模型中，得到输出的唤醒文本，将唤醒文本与预设唤醒关键词进行匹配，当匹配一致时，使餐饮机器人处于会话状态并显示订餐界面，提高了唤醒餐饮机器人的速度，使用餐者可以直接进行通过订餐界面进行订餐操作，提高了交互的效率。并将订餐完成时获取到的订单信息发送商户终端并显示，以使商户终端能够及时接收到订单信息并进行处理，提高了订餐的效率。

在一个实施例中，如图4所示，步骤S202，即检测到触发用餐完成事件，包括步骤：

S402，获取买单语音，根据买单语音触发买单事件。

其中，买单语音是指用餐者在买单时与餐饮机器人对话的语音。比如，用餐者对餐饮机器人说“我要买单”，餐饮机器人采集到“我要买单”的语音。买单事件是指触发的订单支付的事件。

具体地，餐饮机器人采集到买单语音，识别该买单语音得到买单文本，将买单文本与预先设置好的买单关键词进行匹配，当买单文本中存在买单关键词时，餐饮机器人触发买单事件。

S404，响应于买单事件，获取用户信息和订单信息。

其中，用户信息是指用户能够用户支付的信息，比如，用户身份信息，用户支付账号信息等等。

具体地，餐饮机器人响应于买单事件，获取到用户信息和订单信息，比如，该用户信息可以是从第三方获取到的。其中，第三方可以是各种存储有用户信息的服务方，例如，微信服务方、支付宝服务方等。

S406，根据用户信息和订单信息生成扣款信息，根据扣款信息进行支付，当支付完成时，触发用餐完成事件。

具体地，餐饮机器人根据用户信息和订单信息生成扣款信息，该扣款信息用于进行支付交易，比如，该扣款信息可以是扣款凭证。通过生成的扣款信息进行交易支付，当支付完成时，触发用餐完成事件。

在上述实施例中，餐饮机器人在采集到买单语音时，获取到用户信息和订单信息，从而可以根据用户信息和订单信息进行支付，提高了餐饮机器人的资源利用率，从而能够避免用餐者使用手机进行支付，提高了用户体验。

在一个实施例中，如图5所示，步骤S204，即对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别确定用餐评价信息，包括步骤：

S502，对用餐语音进行语音识别，得到用餐文本，根据用餐文本确定第一评价信息。

其中，用餐文本是用餐语音对应的文本。第一评价信息是指根据用餐文本得到的评价信息，该第一评价信息的类别包括正面评价，负面评价和中性评价。

具体地，餐饮机器人对用餐语音使用语音识别算法进行语音识别，得到用餐文本，然后使用用餐文本进行评价类别的识别，根据识别结果确定对应的第一评价信息。

S504，对餐后菜盘图像进行菜品识别，得到菜品标识，根据餐后菜品图像确定菜品剩余信息，根据菜品剩余信息确定菜品标识对应的空盘信息，根据空盘信息得到第二评价信息。

其中，菜品标识用于唯一标识菜品，可以是菜品的名称，编号等等。菜品剩余信息是指菜品在菜盘中剩余的信息。空盘信息用于反映用餐者对菜品的喜好程度。第二评价信息是指根据餐后菜盘图像得到的评价信息。

具体地，餐饮机器人先对餐后菜盘图像中的菜品进行识别，得到餐后菜盘图像中的菜品标识，然后使用餐后菜盘图像识别菜品标识对应的菜品剩余信息，根据菜品剩余信息计算空盘信息，然后根据空盘信息得到第二评价信息。

S506，对餐后人脸图像进行表情识别，得到表情识别结果，根据表情识别结果确定第三评价信息。

其中，表情识别是指对餐后人脸图像中人脸的表情进行识别。人脸的表情具体包括生气，害怕，厌恶，开心，悲伤，惊讶以及中立等等。第三评价信息是指根据人脸表情确定的评价信息。

具体地，餐饮机器人对餐后人脸图像进行表情识别，得到表情识别结果，根据表情识别结果按照预先设置好的表情与评价的对应关系确定第三评价信息。

S508，根据第一评价信息、第二评价信息和第三评价信息确定菜品标识对应的用餐评价信息。

具体地，餐饮机器人综合第一评价信息、第二评价信息和第三评价信息得到菜品标识对应的用餐评价信息。比如，可以预先设置好第一评价信息、第二评价信息和第三评价信息对应的权重，根据权重和对应的评价信息计算得到最终的用餐评价信息。

在上述实施例中，通过用餐语音识别得到第一评价信息，通过餐后菜盘图像识别得到第二评价信息，通过餐后人脸图像识别得到第三评价信息，然后根据第一评价信息、第二评价信息和第三评价信息确定菜品标识对应的用餐评价信息，提高多种角度识别得到多个评价信息，通过多个评价信息确定用餐评价信息，提高了得到用餐评价信息的准确性。

在一个具体的实施例中，如图6所示，为餐饮机器人对用餐者的用餐状况分析的示意图，具体来说：

餐饮机器人通过餐品分析系统使用餐后菜盘图像对细粒度菜品进行识别，得到菜品ID(Identity document，身份标识号)，然后在对餐后菜盘图像进行图像分析，得到菜品剩余信息和菜品空白信息，根据菜品剩余信息和菜品空白信息计算空盘率，根据空盘率确定评价分，其中，空盘率越高评价得分越高。然后通过用户分析系统使用餐后人脸图像对用餐者的人脸表情进行分析，得到表情分析结果，根据表情分析结果确定用餐者的面部情绪评价分，其中，高兴，快乐等面部情绪对应高评价分，生气、厌恶等面部情绪对应低评价分。再通过用户分析系统使用用餐语音对用餐者在就餐过程中的语音情感进行分析，得到语音情感分析结果，根据语音情感分析结果确定用餐者的声音情绪评价分其中，正面声音情绪对应高评价分，负面声音情绪对应低评价分。最后对面部情绪评价分，声音情绪评价分和根据空盘率确定的评价分进行加权求和，得到用餐者对应的用餐评价分，该用餐评价分越高表示用户的满意度越高。

在一个实施例中，如图7所示，步骤S502，对用餐语音进行语音识别，得到用餐文本，根据用餐文本确定第一评价信息，包括：

S702，将用餐语音输入到语音降噪模型中降噪，得到去噪语音。

具体地，语音降噪模型是使用神经网络算法进行训练得到的，其中，神经网络算法可以是基于RNN(Recurrent Neural Network)，循环神经网络)和统计混合的降噪算法，降噪是指降低语音中的噪音，使能够更加准确地对语音进行识别。餐饮机器人预先搭载好已训练完成的语音降噪模型，在进行语音降噪时，可以直接调用搭载的语音降噪模型。即可以将用餐语音输入到语音降噪模型中降噪，得到去噪语音。

在一个具体的实施例中，如图8所示，为使用语音降噪模型对用餐语音降噪的流程示意图。具体来说：

对用餐语音进行加窗分帧，将加窗分帧后的信号进行FFT(fastFouriertransform，快速傅立叶变换)，得到FFT后的结果。同时将用餐语音进行基音分析，得到基音分析结果。然后使用RNN模块对FFT后的结果和基音分析结果进行特征提取，得到用餐语音特征，将用餐语音特征进行RNN推理，将推理结果进行临界频带增益，得到RNN频点增益。同时对基音分析结果进行基音滤波，得到基音滤波后的RNN频点增益。对FFT后的结果使用统计模块进行VAD(语音活动检测，Voice Activity Detection)和噪声估计处理，并统计频点增益。然后根据统计得到的频点增益和RNN的频点增益进行混合能量谱减处理，得到处理后的结果。获取FFT后的结果中的相位信息，将处理后的结果和相位信息进行IFFT(Inverse Fast Fourier Transform，离散傅立叶反变换)，得到变换后的结果，将变化后的结果进行重叠相加得到最终输出的去噪语音。

S704，将去噪语音输入到语音识别模型中识别，得到用餐文本。

其中，语音识别模型是预先搭载在餐饮机器人中的，该语音识别模型是根据已有的语音数据基于GMM和HMM算法训练得到的模型。

具体地，餐饮机器人使用语音识别模型中GMM部分对去噪语音进行识别，得到音素，然后将音素使用语音识别模型中HMM部分进行识别，得到语音识别结果，将语音识别结果与模板库进行匹配，得到用餐文本。

S706，将用餐文本输入到文本分类模型中进行分类，得到分类结果，根据分类结果确定第一评价信息。

具体地，文本分类模型是指根据已有的文本数据使用LSTM神经网络算法训练得到的模型，分类结果是指输出的文本表达的情感的类别概率，可以包括正面、反面和中性等类别。

通过将用餐文本进行分词，将分词后的结果输入到文本分类模型中进行分类，得到输出的分类结果，将分类结果中类别概率最高的结果作为第一评价信息。

在上述实施例中，通过对用餐语音进行去噪，然后对去噪后的语音进行识别，得到第一评价信息，能够使得到的第一评价信息更加的准确。

在一个实施例中，如图9所示，步骤S504，即对餐后菜盘图像进行菜品识别，得到菜品标识，根据餐后菜品图像确定菜品剩余信息，根据菜品剩余信息确定菜品标识对应的空盘信息，根据空盘信息得到第二评价信息，包括步骤：

S902，将餐后菜盘图像输入到菜品特征提取模型中，得到菜品特征信息。

S904，将菜品特征信息与预设菜品特征数据库进行匹配，得到匹配结果，根据匹配结果确定菜品标识。

其中，菜品特征提取模型是指根据已有的菜品数据使用ResNet残差网络算法进行训练得到的模型。其中，ResNet模型的特点是将网络层数继续增加，更多的网络层数，可以提取到更多的抽象特征同时也能够更好的提取不同层次的特征。如图10所示，为ResNet模型的残差网络结构示意图。其中，网络输入在经过连续的多个卷积层之后的输出，再与原来的输入进行相加，同时一起经过ReLU激活的输出，最终可以获得残差网络的输出。ResNet使用这种结构，在保持了预测精度的前提下也极大的减少了计算量。菜品特征信息用于反映餐后菜盘图像中菜品的具体信息，包括菜品的颜色、大小、形状、种类等等。

具体地，餐饮机器人使用菜品特征提取模型提取餐后菜盘图像中的菜品特征，得到菜品特征信息，将菜品特征信息与预设菜品特征数据库中的特征进行匹配，当存在一致的菜品特征信息时，从预设菜品特征数据库中获取到对应的菜品标识。

S906，将餐后菜盘图像数据输入到图像区域识别模型中，得到菜品剩余区域和菜品空白区域。

S908，根据菜品剩余区域和菜品空白区域计算菜品标识对应的空盘率，根据空盘率确定第二评价信息。

其中，图像区域识别模型是指根据历史餐后菜盘图像使用人工智能分类算法进行训练得到的。其中，人工智能分类算法可以是决策树算法、逻辑回归算法、支持向量机算法、神经网络算法等。菜品剩余区域是指餐盘中有菜剩余的部分，菜品空白区域是指餐盘中无菜剩余的部分。

具体地，餐饮机器人将餐后菜盘图像数据输入到图像区域识别模型中进行图像区域识别，得到菜品剩余区域和菜品空白区域，计算菜品空白区域和菜品剩余区域的比值，则该比值则为空盘率，根据该空盘率确定第二评价信息。例如，可以获取到平均空盘率，当空盘率大于平均空盘率时，得到高评价信息，当空盘率小于平均空盘率时，得到低评价信息。

在上述实施例中，通过识别餐后菜盘图像中的菜品剩余区域和菜品空白区域，根据菜品剩余区域和菜品空白区域计算空盘率，根据空盘率确定第二评价信息，使得到的第二评价信息更加的准确。

在一个实施例中，如图11所示，步骤S506，即对餐后人脸图像进行表情识别，得到表情识别结果，根据表情识别结果确定第三评价信息，包括步骤：

S1102，提取餐后人脸图像中的脸部特征数据，将脸部特征数据输入到表情识别模型中识别，得到表情识别结果。

S1104，根据表情识别结果确定用户满意度，将用户满意度作为第三评价信息。

其中，表情识别模型是根据历史餐后人脸图像使用表情识别算法进行训练得到的。该表情识别模型是预先搭载在餐椅机器人中的。

具体地，餐饮机器人提取餐后人脸图像中的脸部特征数据，可以从人脸中的关键部位来确定脸部特征，比如，根据人脸中的眉毛来确定眉毛部分特征，根据眼睛来确定眼睛部分特征等等。将脸部特征数据输入到表情识别模型中识别，得到表情识别结果，根据表情识别结果确定用户满意度，将用户满意度作为第三评价信息。比如，根据用户高兴的表情识别结果确定高兴表情对应的用户满意度。其中，可以预先设置好的每个表情对应的用户满意度。

在一个实施例中，通过主动形状模型(ASM)方法来定位用户脸部关键部位。其中，关键部位由关键特征点来描述，该关键特征点可以包括嘴巴、眉毛、眼睛、鼻子等。确定关键特征点对应的坐标

在上述实施例中，通过表情识别模型来确定表情识别结果，提高了得到表情识别结果的准确度，进而提高第三评价信息的准确度。

在一个实施例中，在步骤S202之前，即在检测到触发用餐完成事件，响应用餐完成事件之前，还包括步骤：

获取加餐语音，根据加餐语音触发加餐事件，响应于加餐事件，获取加餐订单信息，将加餐订单信息发送到商户终端并显示。

其中，加餐事件是指触发再次进行点餐的事件。

具体地，餐饮机器人获取加餐语音，识别加餐语音，得到加餐文本，将加餐文本与预设加餐关键词进行匹配，当加餐文本中存在一致的加餐关键词时，触发加餐事件，响应于加餐事件，获取到加餐的订单信息，将加餐订单信息发送到商户终端进行显示。

在上述实施例中，通过在餐中时，用餐者可以通过餐饮机器人进行加餐服务。餐饮机器人获取加餐语音，根据加餐语音获取加餐订单信息，将加餐订单信息发送到商户终端并显示，提高了餐饮机器人的资源利用率，并提高了用户体验。

在一个具体地实施例中，如图12所示，为餐饮机器人的总体架构示意图。其中，在餐前，用户在点餐时可以实时唤醒餐饮机器人，然后通过对话系统进行点餐处理，得到订单信息发送给商户后台。也可以通过搜索系统使用户搜索餐品，还可以通过推荐系统给用户推荐餐品。在餐中，用户需要加水加餐时，也可以实时唤醒餐饮机器人，通过对话系统进行加餐对话，使餐饮机器人获取到加餐订单信息，然后通过通信系统将加餐订单信息发送商户后台。在餐后，用户需要买单时，通过获取到买单语音触发买单事件，响应买单事件进行支付，使用户可以脱离手机进行支付，方便快捷。其中，该餐饮机器人通过语音识别、语音分析、人脸识别、表情分析、情感分析、细粒度物品识别和行为分析来支付上述餐前、餐中和餐后功能的实现，充分利用了餐饮机器人的资源。

本申请还提供一种应用场景，该应用场景应用上述的餐饮数据处理方法。具体地，该餐饮数据处理方法在该应用场景的应用如下：

如图13所示，为一个用户在餐厅就餐的流程示意图。首先用户在餐前唤醒餐饮机器人，餐饮机器人采集人脸图像进行人脸识别，并根据人脸识别结果进行微信用户登录，登录成功后显示订餐界面。用户可以根据订餐界面可以与餐饮机器人进行下单对话，当下单完成时，餐饮机器人生成订单信息发送给商户后台。商户根据显示的订单信息进行处理。用户在餐中需要进行加水加餐时，可以唤醒餐饮机器人修改下单，通过对话餐饮机器人获取到修改后的订单信息，将修改后的订单信息发送商户后台。当用户在餐后需要买单时，餐饮机器人采集买单语音，触发买单事件，此时餐饮机器人从微信服务器中获取到用户信息，并根据用户信息和订单信息生成扣款凭证。然后通过扣款凭证请求微信进行扣款处理，最后用户可以通过微信查询支付结果。

应该理解的是，虽然图2-5、图7、图9和图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5、图7、图9和图11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供一种餐饮机器人，如图14所述，该餐饮机器人包括：

数据传输器，与商户终端相连，用于将用餐评价信息发送商户终端。

上述餐饮机器人，通过数据采集器、数据处理器和数据传输器来进行餐饮数据处理，提高了餐餐饮机器人的资源利用率。

在一个实施例中，数据处理器，还用于执行上述各个餐饮数据处理方法实施例中的步骤。

在一个实施例中，如图15所示，提供了一种餐饮数据处理装置1500，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：事件触发模块1502、信息确定模块1504和信息发送模块1506，其中：

事件触发模块1502，用于当检测到触发用餐完成事件时，响应用餐完成事件，获取用餐行为数据，用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；

信息确定模块1504，用于对用餐语音进行语音识别，并对餐后菜盘图像和餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；

信息发送模块1506，用于将用餐评价信息发送至商户终端并显示。

在一个实施例中，餐饮数据处理装置1500，还包括：

订餐模块，用于当检测到触发唤醒事件时，响应唤醒事件，获取唤醒语音；将唤醒语音输入到语音识别模型中，得到输出的唤醒文本，将唤醒文本与预设唤醒关键词进行匹配；当匹配一致时，显示订餐界面，当检测到通过订餐界面触发的订餐完成事件时，响应于订餐完成事件，获取订单信息，将订单信息发送到商户终端并显示。

在一个实施例中，事件触发模块1502还用于获取买单语音，根据买单语音触发买单事件；响应于买单事件，获取用户信息和订单信息；根据用户信息和订单信息生成扣款信息，根据扣款信息进行支付，当支付完成时，触发用餐完成事件。

在一个实施例中，信息确定模块1504，包括：

语音识别单元，用于对用餐语音进行语音识别，得到用餐文本，根据用餐文本确定第一评价信息；

菜盘识别单元，用于对餐后菜盘图像进行菜品识别，得到菜品标识，根据餐后菜品图像确定菜品剩余信息，根据菜品剩余信息确定菜品标识对应的空盘信息，根据空盘信息得到第二评价信息；

人脸识别单元，用于对餐后人脸图像进行表情识别，得到表情识别结果，根据表情识别结果确定第三评价信息；

评价信息确定单元，用于根据第一评价信息、第二评价信息和第三评价信息确定菜品标识对应的用餐评价信息。

在一个实施例中，语音识别单元还用于将用餐语音输入到语音降噪模型中降噪，得到去噪语音；将去噪语音输入到语音识别模型中识别，得到用餐文本；将用餐文本输入到文本分类模型中进行分类，得到分类结果，根据分类结果确定第一评价信息。

在一个实施例中，菜盘识别单元，还用于将餐后菜盘图像输入到菜品特征提取模型中，得到菜品特征信息；将菜品特征信息与预设菜品特征数据库进行匹配，得到匹配结果，根据匹配结果确定菜品标识；将餐后菜盘图像数据输入到图像区域识别模型中，得到菜品剩余区域和菜品空白区域；根据菜品剩余区域和菜品空白区域计算菜品标识对应的空盘率，根据空盘率确定第二评价信息。

在一个实施例中，人脸识别单元，还用于提取餐后人脸图像中的脸部特征数据，将脸部特征数据输入到表情识别模型中识别，得到表情识别结果；根据表情识别结果确定用户满意度，将用户满意度作为第三评价信息。

在一个实施例中，餐饮数据处理装置1500，还包括：

加餐模块，用于获取加餐语音，根据加餐语音触发加餐事件，响应于加餐事件，获取加餐订单信息，将加餐订单信息发送到商户终端并显示。

关于餐饮数据装置的具体限定可以参见上文中对于餐饮数据方法的限定，在此不再赘述。上述餐饮数据装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种餐饮数据方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种餐饮数据处理方法，其特征在于，所述方法包括：

当检测到触发用餐完成事件时，响应所述用餐完成事件，获取用餐行为数据，所述用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；

对所述用餐语音进行语音识别，并对所述餐后菜盘图像和所述餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；

将所述用餐评价信息发送至商户终端并显示。

2.根据权利要求1所述的方法，其特征在于，在所述当检测到触发用餐完成事件时，响应所述用餐完成事件之前，还包括：

当检测到触发唤醒事件时，响应所述唤醒事件，获取唤醒语音；

将所述唤醒语音输入到语音识别模型中，得到输出的唤醒文本，将所述唤醒文本与预设唤醒关键词进行匹配；

当匹配一致时，显示订餐界面，当检测到通过所述订餐界面触发的订餐完成事件时，响应于所述订餐完成事件，获取订单信息，将所述订单信息发送到所述商户终端并显示。

3.根据权利要求1所述的方法，其特征在于，所述检测到触发用餐完成事件，包括：

获取买单语音，根据所述买单语音触发买单事件；

响应于所述买单事件，获取用户信息和订单信息；

根据所述用户信息和所述订单信息生成扣款信息，根据所述扣款信息进行支付，当支付完成时，触发用餐完成事件。

4.根据权利要求1所述的方法，其特征在于，所述对所述用餐语音进行语音识别，并对所述餐后菜盘图像和所述餐后人脸图像进行图像识别确定用餐评价信息，包括：

对所述用餐语音进行语音识别，得到用餐文本，根据所述用餐文本确定第一评价信息；

对所述餐后菜盘图像进行菜品识别，得到菜品标识，根据所述餐后菜品图像确定菜品剩余信息，根据所述菜品剩余信息确定所述菜品标识对应的空盘信息，根据所述空盘信息得到第二评价信息；

对所述餐后人脸图像进行表情识别，得到表情识别结果，根据所述表情识别结果确定第三评价信息；

根据所述第一评价信息、所述第二评价信息和所述第三评价信息确定所述菜品标识对应的用餐评价信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述用餐语音进行语音识别，得到用餐文本，根据所述用餐文本确定第一评价信息，包括：

将所述用餐语音输入到语音降噪模型中降噪，得到去噪语音；

将所述去噪语音输入到语音识别模型中识别，得到所述用餐文本；

将所述用餐文本输入到文本分类模型中进行分类，得到分类结果，根据分类结果确定所述第一评价信息。

6.根据权利要求4所述的方法，其特征在于，所述对所述餐后菜盘图像进行菜品识别，得到菜品标识，根据所述餐后菜品图像确定菜品剩余信息，根据所述菜品剩余信息确定所述菜品标识对应的空盘信息，根据所述空盘信息得到第二评价信息，包括：

将所述餐后菜盘图像输入到菜品特征提取模型中，得到菜品特征信息；

将所述菜品特征信息与预设菜品特征数据库进行匹配，得到匹配结果，根据所述匹配结果确定菜品标识；

将所述餐后菜盘图像数据输入到图像区域识别模型中，得到菜品剩余区域和菜品空白区域；

根据所述菜品剩余区域和所述菜品空白区域计算所述菜品标识对应的空盘率，根据所述空盘率确定第二评价信息。

7.根据权利要求4所述的方法，其特征在于，所述对所述餐后人脸图像进行表情识别，得到表情识别结果，根据所述表情识别结果确定第三评价信息，包括：

提取所述餐后人脸图像中的脸部特征数据，将所述脸部特征数据输入到表情识别模型中识别，得到表情识别结果；

根据表情识别结果确定用户满意度，将所述用户满意度作为第三评价信息。

8.根据权利要求1所述的方法，其特征在于，在所述检测到触发用餐完成事件，响应所述用餐完成事件之前，还包括：

获取加餐语音，根据所述加餐语音触发加餐事件，响应于所述加餐事件，获取加餐订单信息，将所述加餐订单信息发送到所述商户终端并显示。

9.一种餐饮机器人，其特征在于，所述餐饮机器人包括：

数据采集器，与数据处理器相连，用于采集用餐行为数据，所述用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像，将用餐行为数据发送数据处理器；

数据处理器，与数据传输器相连，用于对所述用餐语音进行语音识别，并对所述餐后菜盘图像和所述餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息，将用餐评价信息发送数据传输器；

数据传输器，与商户终端相连，用于将用餐评价信息发送所述商户终端。

10.一种餐饮数据处理装置，其特征在于，所述装置包括：

事件触发模块，用于当检测到触发用餐完成事件时，响应所述用餐完成事件，获取用餐行为数据，所述用餐行为数据包括用餐语音，餐后菜盘图像和餐后人脸图像；

信息确定模块，用于对所述用餐语音进行语音识别，并对所述餐后菜盘图像和所述餐后人脸图像进行图像识别，根据语音识别结果和图像识别结果确定用餐评价信息；

信息发送模块，用于将所述用餐评价信息发送至商户终端并显示。

11.一种餐饮机器人，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。