CN115457937A

CN115457937A - 一种饮食监测分析方法及系统

Info

Publication number: CN115457937A
Application number: CN202211129602.8A
Authority: CN
Inventors: 唐泳; 周祎楠; 王唯佳; 杨晓帅; 荣知钦; 孙中杰; 赵伟
Original assignee: Beijing Futong Zhikang Technology Co ltd
Current assignee: Beijing Futong Zhikang Technology Co ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-09

Abstract

本发明公开了一种饮食监测分析方法和系统，方法包括：获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理；基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别模型与分词模型进行联合训练；基于所述识别结果计算用户摄入营养信息。通过上述技术方案，可以有效将语音识别与分词功能进行整合提高训练效率，减少分别进行处理的中间层，提高语音识别与分词的整体准确率，提高最后的识别准确率。

Description

一种饮食监测分析方法及系统

技术领域

本发明涉及智慧医疗、医疗健康技术领域，特别是涉及一种饮食监测分析方法及系统。

背景技术

随着生活质量的提高，现实生活中不同人群对于三餐饮食产生了多元化的需求。例如注重身材保持的年轻人群，越来越注重三餐中的热量与蛋白质含量，以追求自己的理想身材。对于这种健身与运动爱好者，需要在三餐中合理分配每一餐的碳水化合物与蛋白质摄入量，再根据每种食物本身的营养成分进行三餐内容和重量的搭配，以完成对三餐饮食的精确记录与掌控。同样，拥有糖尿病、尿酸高等基础疾病的中老年人群对于日常饮食记录也有苛刻需求，需要记录每日糖分、热量以及特殊类别食物摄入量。这类人群需要根据食物本身的营养成分，来查询并确认某种食物的可食性和食用量，同时完成已食用食物的三餐打卡记录提供给本人、家属以及医务工作者，便于实现饮食调理与健康监控。因此，在社会中就产生了需要便捷记录日常三餐所食用食物，并能根据所食用食物完成对每日营养元素摄入自动计算的功能需求。

针对大众人群，手动打字输入或者网络搜索的方式使得日常三餐饮食打卡变得复杂且不利于使用。尤其对于中老年人，这类人群通常缺乏互联网搜索与打字能力。所以，一种便捷性和通用性高的打卡录入方式显得格外重要。目前，对于绝大多数人群来说，基于语音录入每日三餐所食用的食物以及食用量是一种便捷且用户友好的方式。

发明内容

为解决上述问题，本发明提供一种饮食监测分析方法及系统，以替代用户使用键盘或者其他方式手动输入每日三餐所食用的内容并进行分析的方法。

本发明采用的一个技术方案是：一种饮食监测分析方法，包括：

获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理；

基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别模型与分词模型进行联合训练；

基于所述识别结果计算用户摄入营养信息。

进一步的，所述基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，包括：

基于语音识别模型，将所述预处理后的语音饮食数据中的一段长语句根据基音特征划分为不同小段的语音数据，再将不同小段的语音数据转化为词向量；

对所述词向量进行部分遮蔽，形成增强文字数据；

基于分词模型对所述增强文字数据进行分词，获得识别结果。

进一步的，所述语音识别模型基于语音模型并结合小波变换与自相关基音周期检测；

所述语音模型包括一个五层循环神经网络（Recurrent Neural Network，RNN），所述五层循环神经网络的输入是语音的波阵面（Wavefront）频谱，前三层为全连接层：H=g(WX+b)，第四层为双向RNN：

，其中W为权重系数矩阵、b为偏置矩阵、 t为当前时刻，t-1为前一个时刻，第五层为全连接层，所述全连接层通过Softmax获得每个文字对应的概率：H=Softmax(WX+b)，其中X为每一层的输入，H为每一层对应的输出，g(x)为Clipped ReLU函数。

进一步的，所述分词模型使用隐马尔可夫模型（Hidden Markov Model，HMM）结合维特比（Viterbi）算法进行新词发现与分词求解，依靠文字的隐含状态求解划分词句的最优路径，表示为

，其中i表示不同路径，j表示路径i的分词方案，p表示每个词的概率，所述隐含状为文字被切分的情况。

进一步的，输出的文字与其概率作为输入再送入到所述分词模型中构建有向无环图（Directed Acyclic Graph，DAG），选取最优结果作为联合训练模型的输出，即得到识别结果。

进一步的，还包括：

对所述识别结果进行模糊匹配，获得模糊匹配结果；

用户对所述模糊匹配结果进行确认，得到纠正后的识别结果。

进一步的，还包括：

将所述纠正后的识别结果与所述语音分词联合训练模型输出的识别结果进行对比，基于所述对比的结果更新所述语音分词联合训练模型的模型参数。

进一步的，所述部分遮蔽为随机遮蔽。

依据上述方法，本发明对应还提供一种饮食监测分析系统，其特征在于，包括：

数据预处理模块，用于获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理；

语音智能识别模块，用于基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别模型与分词模型进行联合训练；

数据库查询模块，用于基于所述识别结果计算用户摄入营养信息。

智能学习模块，用于更新所述语音分词联合训练模型的模型参数。

本发明的有益效果是：通过上述技术方案的方法或者系统，本发明可以有效将语音识别与分词功能进行整合提高训练效率，减少分别进行处理的中间层，提高语音识别与分词的整体准确率，提高最后的识别准确率。

附图说明

图1本发明实施例饮食监测分析方法流程示意图。

图2本发明实施例饮食监测分析系统示意图。

图3为本发明实施例系统结构图。

具体实施方式

在本申请实施例提供的技术方案中，通过获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理；基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别模型与分词模型进行联合训练；基于所述识别结果计算用户摄入营养信息，可以有效将语音识别与分词功能进行整合提高训练效率，减少分别进行处理的中间层，从而提高语音识别与分词的准确率以及整体识别准确率。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例一，请参考图1，本申请实施例提供一种饮食监测分析方法，包括：

S101：获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理；

S102：基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别结果与分词模型进行联合训练；

S103：基于所述识别结果计算用户摄入营养信息。

本发明所采用的饮食监测分析方法，可以应用于以智能电子设备，如智能手机等，该智能电子设备具有语音提取功能，并具有数据处理能力。上述方法也可以应用于服务器。

该方法在智能电子设备上执行时，执行S101获取用户语音输入的语音饮食数据，对所述用户语音输入的语音饮食数据进行预处理。

具体的，用户可以通过智能电子设备的麦克风，记录所述用户语音输入的语音饮食数据，如每次的饮食的名称、类型、数量等等，智能电子设备在本地对所述用户语音输入的语音饮食数据进行降噪与增强后，按照base64编码方式上传至服务器。在服务器中将接收到的编码后语音信号进行base64解码，恢复为WAV（WaveForm）语音格式，输出至语音智能识别模块。

对于执行设备是服务器时，执行S101，服务器可以通过获取其他设备传输的数据得到智能电子设备的的语音，如通过网络通信或者即使通信软件获取，也可以是云端数据库中获得；还可以通过读取本地存储的所述用户语音输入的语音饮食数据，如服务器存储器中预先存储的语音。

S102：基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，其中，所述语音分词联合训练模型基于语音识别模型与分词模型进行联合训练。

在获取预处理的语音饮食数据之后，本申请的实施例需要基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，包括：

对所述词向量进行部分遮蔽，形成增强文字数据，上述的部分遮蔽为随机遮蔽，具体表达式为

，

，其中rand(x)为随机函数，随机遮蔽部分数据，以达到数据增强的效果，其中的Mask掩码数据增强是针对于分词阶段，而不是语音识别阶段。

基于分词模型对所述增强文字数据进行分词，获得识别结果，上述识别结果标准化输出为JSON格式，便于后续的数据处理和显示。

其中，所述语音识别模型基于语音模型并结合小波变换与自相关基音周期检测；

本实施例的所述语音模型采用Deepspeech语音模型，该语音模型包括一个五层循环神经网络（Recurrent Neural Network，RNN），所述五层循环神经网络的输入是语音的波阵面（Wavefront）频谱，前三层为全连接层：H=g(WX+b)，第四层为双向RNN：

，其中W为权重系数矩阵、b为偏置矩阵、t为当前时刻，t-1为前一个时刻，第五层为全连接层，所述全连接层通过Softmax获得每个文字对应的概率：H=Softmax(WX+b)，其中X每一层的输入，H为每一层对应的输出，g(x)为Clipped ReLU函数。

所述分词模型使用隐马尔可夫模型（Hidden Markov Model，HMM）结合维特比（Viterbi）算法进行新词发现与分词求解，依靠文字的隐含状态求解划分词句的最优路径，表示为

本实施例语音识别模型输出的文字与其概率作为输入再送入到所述分词模型中构建有向无环图（Directed Acyclic Graph，DAG），选取最优结果作为所述语音分词联合训练模型的输出，即得到分词结果。将语音识别模型与分词模型进行结合，分词模型的输入就不再是确定的文字，而是包含了一系列可能的文字情况，通过构建有向无环图将文字与其概率利用起来，提高最后的识别准确率。

为增加语音识别的准确性，本实施例还要对所述识别结果进行模糊匹配，获得模糊匹配结果；用户对所述模糊匹配结果进行确认，得到纠正后的识别结果。

对模型输出的食物信息对再通过模糊匹配算法，在预先存储的食材库中进行比较，选取一个匹配度最高的食材结果作为模糊匹配结果。模糊匹配内采用强化学习的思想，增加边缘端的用户确认步骤，并将用户确认结果作为模糊匹配的奖惩机制的判断依据。奖惩机制具体为，当用户确认模糊匹配结果为正确时，提高此情况下食物与识别结果的匹配度；若结果不正确，则减弱匹配度，让其他匹配度较高的食物作为识别结果。模糊匹配能纠正语音转文字过程中拼音相似但是文字不同的问题情况，进而提高识别的准确率。

进一步的，本实施例还将所述纠正后的识别结果与所述语音分词联合训练模型输出的识别结果进行对比，基于所述对比的结果更新所述语音分词联合训练模型的模型参数。

通过上述更新，将纠正后的结果与之前模型直接生成的结果进行比较，定期根据纠正后的结果更新模型参数，完成所述语音分词联合训练模型的自动训练，实现数据自动收集、数据自动标记以及模型自动训练的无人自动优化。

具体的，语音智能识别模块中训练过程需要语音数据、分词标记以及食物标记，智能学习模块能提供经过模糊匹配纠正的食物标记。自动收集指将用户语音与经过模糊匹配纠正的食物标记保存下来。数据自动标记指的利用模糊匹配进行数据标记，将纠正结果作为食物标记。模型自动训练指的当数据存储量达到一定数量时，利用已收集数据进行新一轮的训练，并将模型更新替换原有模型，无需人工参与。例如：用户提交WAV格式语音，内容为“面包”，经过语音联合训练模型后错误识别为词向量“面抱”，但是经过模糊匹配后纠正为文字“面包”，那么智能学习模块会收集内容为“面包”的WAV格式语音与经过纠正后的文字“面包”，组成一定量的数据集后进行训练。

经过上述一系列的语音饮食数据分析识别，获得所述识别结果后，执行步骤S103：基于所述识别结果计算用户摄入营养信息。

具体的，通过查询数据库，根据识别结果中的菜品、数量、单位，比照食材及其营养成分数据库，根据数量和单位自动计算一餐所摄入营养元素总量，并显示至电子设备。

采用上述方法，将语音识别模型与分词模型进行联合训练，完成语音到关键词端到端地分析与识别，提高了运行速度与准确率。而现有技术常采用语音到文本，文本到关键词的多步方式才能完成相似功能，准确率和速度均不如本申请的方法。本发明联合训练中新增Mask掩码数据增强的方式，能够提高数据利用率，增强联合训练模型的泛化能力。语音识别模型中使用小波变换进行基音周期分析，提高了模型的分词能力能有效将语音识别与分词功能进行整合提高训练效率，减少分别进行处理的中间层，提高了语音识别与分词的整体准确率。现有技术将语音模型与分词模型分别进行训练，那么语音模型输出的仅保留最大概率的文字作为结果而不是所有可能的文字与其概率，分词模型无法获得语音模型产生的全部隐含特征（文字的概率），会降低分词准确率。如果将语音识别模型与分词模型结合，分词模型的输入就不再是确定的文字，而是包含了一系列可能的文字情况，然后能够通过构建有向无环图将文字与其概率利用起来，提高最后的识别准确率。

请参考图2、图3，基于上述实施例一的方法，本发明对应还提供饮食监测分析系统，包括：

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在本发明所述系统的具体应用时，工作过程可以是以下的步骤：

步骤一：用户登陆系统，通过电子设备的麦克风采集内容为“我吃了一个面包”的WAV格式语音。通过对所述用户语音输入的语音饮食数据进行降噪与增强后，经过base64编码后，传至服务器进行处理。

步骤二：服务器接受编码后的结果，进行参数校验并解码。然后将WAV语音输入到所述基于语音识别模型，转化为文字例如将WAV格式语音转化为“我吃了一个面抱”（“面抱”应为“面包”，后面会通过模糊匹配进行纠正）的词向量。词向量通过Mask掩码数据增强（仅在模型联合训练过程中使用）后，对随机字段进行遮蔽，词向量变为“我吃了一面抱”（“个”被掩膜，不显示）。然后将词向量输入到分词模型，分词模型能提取词向量中的数量、单位、食物，并对经过Mask遮蔽的部分进行联想，最后输出食品信息对“数量：1，单位：个，食品：面抱”。食品再经过模糊匹配的查询与纠正，得到纠正后的食品信息对“数量：1，单位：个，食品：面包”，此时食品名已完成纠正。

步骤三：将食品信息对“数量：1，单位：个，食品：面包”格式化为[{"食品": "面包","数量": "1","单位": "个" }的JSON格式，将所述用于语音输入的语音饮食数据与纠正结果进行保存。

步骤四：将保存的数据累积到一定量后，统一将所述用于语音输入的语音饮食数据与识别后纠正的识别结果用于重新训练所述语音分词联合模型，实现模型自动更新参数，自动优化识别结果。

步骤五：将JSON格式中的数量、单位、食品进行提取，与MySQL数据库中食品进行比对，查询对应食品营养成分信息。最后通过计算获得用户吃了一个面包所摄入的营养元素为：“热量：200KJ，蛋白质：1g，碳水化合物：150g”，并将结果进行显示。

其中，本实施例的数据预处理模块处于边缘端，即用户的电子设备。语音智能识别模块、结果保存模块、智能学习模块、数据库查询模块处于云端，最后将识别与运算结果返回至用户电子设备边缘端进行显示。食材数据库处于云端，由运营公司管理，由具有资质的营养学专家以及有行医资格的中医进行录入。食材数据包括：食品名称、近义词、食品营养成分（热量、蛋白质含量、碳水化合物含量、脂肪含量以及微量元素含量）与食品特性。其中食品特性为中医指导下定义的食物特性，分为寒性、发物以及季节特性等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种饮食监测分析方法，其特征在于，包括：

基于所述识别结果计算用户摄入营养信息。

2.如权利要求1所述的一种饮食监测分析方法，其特征在于，所述基于语音分词联合训练模型对所述预处理后的语音饮食数据进行分析识别，获得识别结果，包括：

对所述词向量进行部分遮蔽，形成增强文字数据；

3.如权利要求2所述的一种饮食监测分析方法，其特征在于，所述语音识别模型基于语音模型并结合小波变换与自相关基音周期检测；

，其中W为权重系数矩阵、b为偏置矩阵、t为当前时刻，t-1为前一个时刻，第五层为全连接层，所述全连接层通过Softmax获得每个文字对应的概率：H=Softmax(WX+b) ，其中X为每一层的输入，H为每一层对应的输出，g(x)为Clipped ReLU函数。

4. 如权利要求2所述的一种饮食监测分析方法，其特征在于，所述分词模型使用隐马尔可夫模型（Hidden Markov Model，HMM）结合维特比（Viterbi）算法进行新词发现与分词求解，依靠文字的隐含状态求解划分词句的最优路径，表示为

，其中i表示不同路径，j表示路径i的分词方案，p表示每个词的概率。

5.如权利要求3所述的一种饮食监测分析方法，其特征在于，所述全连接层输出的每个文字与对应的概率作为输入再送入到所述分词模型中构建有向无环图（Directed AcyclicGraph，DAG），选取最优结果作为所述语音分词联合训练模型的输出，得到识别结果。

6.如权利要求1或2所述的一种饮食监测分析方法，其特征在于，还包括：

对所述识别结果进行模糊匹配，获得模糊匹配结果；

7.如权利要求6所述的一种饮食监测分析方法，其特征在于，还包括：

8.如权利要求2所述的一种饮食监测分析方法，其特征在于，所述部分遮蔽为随机遮蔽。

9.一种饮食监测分析系统，其特征在于，包括：

10.如权利要求9所述的一种饮食监测分析系统，其特征在于，还包括：