CN117133291A

CN117133291A - 基于唇语识别模型的口型识别方法和应用系统

Info

Publication number: CN117133291A
Application number: CN202311041736.9A
Authority: CN
Inventors: 汪萍; 陈香萍; 陈丽; 乔丽杰; 朱冰燕; 孙艳亭; 钟娇娇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-28

Abstract

本申请涉及一种基于唇语识别模型的口型识别方法和应用系统，通过在监护室的后台服务器上同时部署单一模态和多模态识别的唇语识别模型；利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；输出所述唇语语句至前端，供医护人员参考。能够利用双工唇语识别的部署模型，对监护室患者的嘴部摄像数据进行唇语识别，以此实现对监护室患者的说话口型进行自动识别，识别出监护室病人在说什么话，便于医护人员及时根据识别的唇语语句判断病人想要表达的意图，方便对病人进行真实意图上的护理。

Description

基于唇语识别模型的口型识别方法和应用系统

技术领域

本公开涉及唇语识别技术领域，尤其涉及一种基于唇语识别模型的口型识别方法和应用系统和电子设备。

背景技术

唇语识别并非最近才出现的技术，早在2003年，Intel就开发了唇语识别软件AVSR，2016年，GoogleDeepMind的唇语识别技术就已经可以支持17500个词，新闻测试集识别准确率达到了50％以上。

唇语识别技术的原理是使用机器视觉只技术，从图像中识别出人脸，判断其中正在说话的人，并提取此人连续的口型变化特征。随后，将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后，根据识别出的发音再计算出可能性最大的自然语言语句。

而在以往的唇语识别技术中，基本是单一模态的唇语识别。随着技术升级，现有的唇语识别，一般会通过"多模态”识别，以此提高语音识别的准确率。比如，搜狗唇语识别系统已经达到60％以上的准确率，超过Google发布的英文唇语系统50％以上的准确率。在垂直场景如车载、智能家居等场景下，搜狗唇语识别系统甚至已经达到90％的准确率。

而在医疗领域，唇语识别适用较少。对于一些病人比如监护室患者，其因为疾病或者身体原因，想要说话而又无法发声，只能嘴唇动作；有些既可动作又可发声。因此，可以考虑利用唇语识别技术，辅助医护人员采集监护室患者的表达意思，但是对于具有嘴唇动作而无声、既有嘴唇动作又有声的监护室患者，不能仅仅依赖单一模态的唇语识别，还需要"多模态”识别。

发明内容

为了解决上述问题，本申请提出一种基于唇语识别模型的口型识别方法和应用系统和电子设备。

本申请一方面，提出一种基于唇语识别模型的口型识别方法，包括如下步骤：

在监护室的后台服务器上同时部署单一模态的唇语识别模型和多模态识别的唇语识别模型；

利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；

后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；

输出所述唇语语句至前端，供医护人员参考。

作为本申请的一可选实施方案，可选地，后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型，包括：

将所述嘴部摄像数据转发至后台部署的筛选器中；

利用所述筛选器对所述嘴部摄像数据进行一次识别，判断所述嘴部摄像数据为单模态还是多模态的音视频数据：

若是单模态的音视频数据，则将所述嘴部摄像数据导入所述单一模态的唇语识别模型；

若是多模态的音视频数据，则将所述嘴部摄像数据导入所述多模态的唇语识别模型。

作为本申请的一可选实施方案，可选地，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：

若为单模态的音视频数据；

利用将所述单一模态的唇语识别模型，对所述嘴部摄像数据中的嘴部唇形图像进行识别，并提取得到监护病人的嘴部唇形变化特征；

根据所述嘴部唇形变化特征，利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别，得到对应的唇形发音；

将所述唇形发音导出至后台服务器，由后台服务器根据所述唇形发音生成对应的唇语语句。

若为多模态的音视频数据；

利用所述多模态的唇语识别模型，对所述嘴部摄像数据中的嘴部唇形图像以及发声信息分别进行识别，并分别提取得到监护病人的嘴部唇形变化特征和发声音频特征；

将所述发声音频特征和所述唇形发音导出至后台服务器，由后台服务器根据所述发声音频特征和所述唇形发音生成对应的唇语语句。

作为本申请的一可选实施方案，可选地，后台服务器根据所述发声音频特征和所述唇形发音生成对应的唇语语句，包括：

按照所述嘴部唇形图像的时帧，找到不同时帧上所对应的所述发声音频特征和所述唇形发音；

利用同一时帧下的所述发声音频特征，优化纠正所述唇形发音，将所述唇形发音按照当前时帧对应的所述发声音频特征进行发音调节；

调整完毕，得到唇形优化发音，并根据所述唇形优化发音生成对应的所述唇语语句。

作为本申请的一可选实施方案，可选地，在后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句止水，还包括：

将生成的所述唇语语句，发送至后台部署的语句判断模型中；

利用所述语句判断模型判断所述唇语语句的识别准确率：

若所述唇语语句的识别准确率≥80％，则将所述唇语语句发送至所述前端；

若所述唇语语句的识别准确率＜80％，则将所述唇语语句返回至对应的所述单一模态的唇语识别模型或所述多模态识别的唇语识别模型进行重新识别，直至识别准确率达标。

本申请另一方面，提出一种实现所述基于唇语识别模型的口型识别方法的应用系统，包括：

音视频采集设备，用于采集监护室患者的嘴部摄像数据，并上传至后台服务器；

后台服务器，用于根据所述嘴部摄像数据的音视频类型，选择后台上部署的单一模态的唇语识别模型或多模态识别的唇语识别模型，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句并输出至前端；

前端，用于展示所述唇语语句，供医护人员参考。

本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述基于唇语识别模型的口型识别方法。

本发明的技术效果：

本申请通过在监护室的后台服务器上同时部署单一模态和多模态识别的唇语识别模型；利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；输出所述唇语语句至前端，供医护人员参考。能够利用双工唇语识别的部署模型，对监护室患者的嘴部摄像数据进行唇语识别，以此实现对监护室患者的说话口型进行自动识别，识别出监护室病人在说什么话，便于医护人员及时根据识别的唇语语句判断病人想要表达的意图，方便对病人进行真实意图上的护理。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出为本发明基于唇语识别模型的口型识别方法的实施流程示意图；

图2示出为本发明的应用系统示意图；

图3示出为本发明单一模态的唇语识别模型进行识别的机制示意图；

图4示出为本发明对识别结果进行准确率判断的示意图；

图5示出为本发明电子设备的应用示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图1所示，本申请一方面，提出一种基于唇语识别模型的口型识别方法，包括如下步骤：

S1、在监护室的后台服务器上同时部署单一模态的唇语识别模型和多模态识别的唇语识别模型；

S2、利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；

S3、后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；

S4、输出所述唇语语句至前端，供医护人员参考。

本方案通过利用双工唇语识别的部署模型，对监护室患者的嘴部摄像数据进行唇语识别，以此实现对监护室患者的说话口型进行自动识别，识别出监护室病人在说什么话，便于医护人员及时根据识别的唇语语句判断病人想要表达的意图，方便对病人进行真实意图上的护理。

如图2所示，本方案利用后台服务器上所部署的唇语识别模型，对监护室患者的唇语音视频信息进行唇语识别。在监护室当中，通过音视频采集设备，比如说红外摄像机，或者是其他的语音视频采集设备来对监护室患者的脸部，尤其是嘴部进行摄像，获取监护室患者的嘴部摄像数据并上传至后台服务器，由监护室的后台主机来对监护室患者的嘴部摄像数据进行唇语识别。

通过对嘴部摄像数据中的人脸识别，提取得到人脸图像中的唇部动态特征，利用模型对唇部动态特征进行唇语识别，得到对应的唇语语句。

后台对唇语语句进行处理之后，将其展示在前端供医护人员参考。可以快速对监护室患者进行真实意图上的护理。

而监护室患者在进行唇语发发音时，可能仅仅只有唇部的动作而没有声音，或者是既有唇部动作也有声音，因此本方案在后台服务器上部署有双工唇语识别模型：部署有一个单一模态的唇语识别模型，用来识别仅仅具有唇部动作的数据；还部署有一个多模态识别的唇语识别模型，该多模态识别模型可以同时对唇部动作以及患者的发声音频进行语音特征识别，多模特识别可以通过生成的唇语语句以及对应的发音音频特征来进行唇语语句的优化纠正，优化唇语语句的语法结构，可以提高对患者的唇语识别准确度。

本方案中，所采用的单一模态的唇语识别模型，可以采用现有唇语识别软件中的唇语识别模型。而多模态的唇语识别模型，可以利用对唇语发音图像进行训练学习得到的多模态唇语识别模型，进行利用，仅仅在单一模态的唇语识别模型的基础上，增加了对音频特征的训练识别，利用卷积网络同时进行唇形图像中的唇形特征和音频数据中的音频特征进行识别和提取。

具体卷积神经网络训练模型的方法，可以参见现有深度学习技术中CNN算法的技术。

将所述嘴部摄像数据转发至后台部署的筛选器中；

本方案，在后台服务器在对嘴部摄像数据进行识别之时，需要判断该监护室患者的嘴部摄像数据中是否同时包含唇部动作图像以及发音音频数据。若是仅仅只有唇部动作图像，则发送至单一模态唇语识别模型进行唇语识别。若是同时存在唇部动作图像以及发音音频，则将其发送至多模态唇语识别模型进行多模态融合识别。

因此，在后台服务器上还部署有一个筛选器，该筛选器可以对采集的唇部摄像数据进行筛选。比如，该筛选器可以为一个音视频播放器或者是其他的音视频判别器，用来判断该唇部摄像数据中是否同时具备音频以及唇部动作图像。后台服务器根据筛选器所输出的筛选结果，将唇部摄像数据判断为单模态是多模态，并根据对应的识别结果将唇部摄像数据发送至对应的识别模型。

如图3所示，作为本申请的一可选实施方案，可选地，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：

若为单模态的音视频数据；

单一模态的唇部唇语识别，可以参见现有技术中的唇语识别方案。

若为多模态的音视频数据；

多模态的唇形识别模型相比于单一模态的成语识别模型，多出了对发音音频特征的识别提取方案，多模态的唇形识别模型同时可以对摄像数据中的唇形图像特征进行提取以及对发音音频信息中的音频特征进行提取。

本方案还具备模型识别精度的判断功能，若是识别的唇语语句的准确率未达标，则可以重新由对应的模型进行重新识别。

利用多模态的唇形识别模型，可以同时输出唇部变化特征以及发音音频特征。输出之后，可以对发音音频特征进行时帧(主要用来记录唇形帧图像上的时间)标记，比如说在某个时帧所对应的时间节点处，开始出现发音音频特征(因为患者发音断断续续，所以需要按照时间节点来记录对应的发音音频特征和唇形发音)，将该发音音频特征与对应时帧节点进行对应标记，后续可以利用对应时间节点的发音音频特征，对唇形发音的发音特征进行语句/音频的调整，进行音色等纠正校准，通过结合唇形发音以及音频特征，以此来优化唇形发音的准确性，生成更为准确的唇形语句。

如图4所示，作为本申请的一可选实施方案，可选地，在后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句止水，还包括：

利用所述语句判断模型判断所述唇语语句的识别准确率：

本方案还可以在向前端输出唇语语句之前，可以利用后台上部署的语句判别模型来判断该唇语语句的识别准确率是否达标，该过程可以由后台管理人员进行介入处理，可以在生成唇语语句之后，将唇语语句输入语句判别模型。

语句判别模型，可以利用语句、语义分析模型或者是语义分析算法，来判断该唇语语句的完整性，若是该完整性达到80％，可以认定该唇语语句的识别准确率超标啊，反之而未达标。未达标之时，将该唇语语句返回至对应的识别模型，通过对应的识别模型重新进行识别，直到达标。

若是重新进行识别，后台管理员可以对唇语识别模型进行参数优化，进行参数调整。

因此，本方案能够能够利用双工唇语识别的部署模型，对监护室患者的嘴部摄像数据进行唇语识别，以此实现对监护室患者的说话口型进行自动识别，识别出监护室病人在说什么话，便于医护人员及时根据识别的唇语语句判断病人想要表达的意图，方便对病人进行真实意图上的护理。

显然，本领域的技术人员应该明白，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。本领域技术人员可以理解，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实施例2

基于实施例1的实施原理，本申请另一方面，提出一种实现所述基于唇语识别模型的口型识别方法的应用系统，包括：

前端，用于展示所述唇语语句，供医护人员参考。

上述系统的应用原理和交互，详见实施例1的描述。

上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

如图5所示，更进一步地，本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述的一种基于唇语识别模型的口型识别方法和应用系统。

本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中，处理器被配置为执行可执行指令时实现前面任一所述的一种基于唇语识别模型的口型识别方法和应用系统。

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的电子设备中，还可以包括输入装置和输出装置。其中，处理器、存储器、输入装置和输出装置之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的一种基于唇语识别模型的口型识别方法和应用系统所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块，从而执行电子设备的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于唇语识别模型的口型识别方法，其特征在于，包括如下步骤：

输出所述唇语语句至前端，供医护人员参考。

2.根据权利要求1所述的基于唇语识别模型的口型识别方法，其特征在于，后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型，包括：

将所述嘴部摄像数据转发至后台部署的筛选器中；

3.根据权利要求2所述的基于唇语识别模型的口型识别方法，其特征在于，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：

若为单模态的音视频数据；

4.根据权利要求2所述的基于唇语识别模型的口型识别方法，其特征在于，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：

若为多模态的音视频数据；

5.根据权利要求4所述的基于唇语识别模型的口型识别方法，其特征在于，后台服务器根据所述发声音频特征和所述唇形发音生成对应的唇语语句，包括：

6.根据权利要求1所述的基于唇语识别模型的口型识别方法，其特征在于，在后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句止水，还包括：

利用所述语句判断模型判断所述唇语语句的识别准确率：

7.一种基于唇语识别模型的口型识别方法和应用系统实现权利要求1-7中任一项所述的装置，其特征在于，包括：

前端，用于展示所述唇语语句，供医护人员参考。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1-7中任一项所述基于唇语识别模型的口型识别方法和应用系统。