CN113762142A

CN113762142A - 一种唇语识别方法及显示设备

Info

Publication number: CN113762142A
Application number: CN202111033048.9A
Authority: CN
Inventors: 李绪送; 杨善松; 成刚
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-07

Abstract

本申请实施例公开了一种唇语识别方法及显示设备，其方法包括：对视频帧图像进行人脸关键点检测；提取所述视频帧图像的VVAD特征向量，并将所述VVAD特征向量保存至双向链表中对当前视频帧图像进行VVAD分类，输出所述当前视频帧图像是否为发音帧；如果所述当前视频帧图像为发音帧，提取所述当前视频帧图像的唇语特征向量；对所述唇语特征向量进行唇语特征分类，输出唇语识别结果。本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式，分散了这部分模型运行时的耗时，避免在某一时刻集中计算时摄像头展示画面延时现像，提高运算效率，减少对端部算力的要求，达到唇语识别模型在端侧的部署。

Description

一种唇语识别方法及显示设备

技术领域

本申请涉及机器视觉技术领域，尤其涉及一种唇语识别方法及显示设备。

背景技术

随着智能家居的兴起，通过语音交互对智能电视等家居设备进行控制成为了越来越普及的控制方式。唤醒率和语音识别准确率是影响语音交互用户体验的两个重要指标。在语音交互技术的发展早期，语音交互通常为近场交互，在近场语音交互场景下，人机距离较小，噪音干扰的影响较小，唤醒率和语音识别准确率较高。然而，单一模态的语音交互系统抗干扰能力不强，在有背景噪音场景、远距离场景、声音监听通道被占用场景下性能会明显降低。

唇语识别是除了声音识别外，机器识别人发音内容最简单有效的方式，将其引入智能交互过程中将有效解决单一模态的语音交互系统在噪音场景、远场场景及声音监听通道被占用场景中遇到的困难。而唇语识别的预测结果的准确性依赖于时间序列信息，所以唇语识别模型一般较大，对硬件算力要求很高，很难达到端侧部署。

发明内容

本申请提供了一种唇语识别方法和显示设备，以实现端部唇语识别模型的部署。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种唇语识别方法及显示设备，包括：对视频帧图像进行人脸关键点检测，删除所述视频帧图像中的无人脸图像帧和侧脸图像帧；

提取所述视频帧图像的VVAD特征向量，并将所述VVAD特征向量保存至双向链表中；

所述双向链表中存储量大于预设存储阈值，则对当前视频帧图像进行VVAD分类，输出所述当前视频帧图像是否为发音帧；

如果所述当前视频帧图像为发音帧，提取所述当前视频帧图像的唇语特征向量，将所述唇语特征向量储存至唇语特征链表；

对所述唇语特征链表中的数据进行唇语特征分类，输出唇语识别结果。

相比现有技术，本申请的有益效果：

本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式，分散了这部分模型运行时的耗时，避免在某一时刻集中计算时摄像头展示画面延时现像，提高运算效率，减少对端部算力的要求，达到唇语识别模型在端侧的部署。

第二方面，本申请实施例公开了另一种唇语识别方法及显示设备，包括：对视频帧图像进行人脸关键点检测，删除所述视频帧图像中的无人脸图像帧和侧脸图像帧；

提取所述视频帧图像的VVAD特征向量和唇语特征向量，并将所述VVAD特征向量保存至双向链表中；

如果所述当前视频帧图像为发音帧，将所述当前视频帧图像对应的唇语特征向量储存至唇语特征链表；

相比现有技术，本申请的有益效果：

本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式，分散了这部分模型运行时的耗时，避免在某一时刻集中计算时摄像头展示画面延时现像，提高运算效率，减少对端部算力的要求，达到唇语识别模型在端侧的部署。进一步，将VVAD特征提取器和唇语特征提取器通过同一模型多目标优化的方式压缩成一个模型，可以同时输出VVAD特征向量和唇语特征向量。实现同一模型完成多任务的方式，进一步节省显示设备端的计算资源，降低对显示设备端硬件的算力要求。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图；

图2示例性示出了根据示例性实施例中控制装置的配置框图；

图3示出了根据示例性实施例中显示设备的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的语音交互原理的示意图；

图6中示例性示出了根据一些实施例的语音交互的场景示意图；

图7中示例性示出了根据一些实施例的语音交互的信号处理示意图；

图8为本申请实施例提供的一种唇语识别方法流程示意图；

图9为本申请实施例示出的一种人脸关键点示意图；

图10为本申请实施例提供的唇语识方法中各个任务的调用情况示意图；

图11为本申请实施例提供的一种唇语识别装置的示意图。

具体实施方式

为便于对申请的技术方案进行解释，以下首先在对本申请所涉及到的一些概念进行说明。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

为清楚说明本申请的实施例，下面结合图5对本申请实施例提供的一种语音识别网络架构进行描述。

参见图5，图5为本申请实施例提供的一种语音识别网络架构示意图。图5中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图5所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图5所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图5所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，图5所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。

在一些实施例中，用户通过语音输入显示设备的查询语句或其他交互语句可称为语音指令。

在一些实施例中，显示设备从语义服务设备获取到的是业务服务给出的查询结果，显示设备可对该查询结果进行分析，生成语音指令的响应数据，然后根据响应数据控制显示设备执行相应的动作。

在一些实施例中，显示设备从语义服务设备获取到的是语音指令的语义解析结果，显示设备可对该语义解析结果进行分析，生成响应数据，然后根据响应数据控制显示设备执行相应的动作。

在一些实施例中，显示设备的遥控器上可设置有语音控制按键，用户按住遥控器上的语音控制按键后，显示设备的控制器可控制显示设备的显示器显示语音交互界面，并控制声音采集器，如麦克风，采集显示设备周围的声音。此时，用户可向显示设备输入语音指令。

在一些实施例中，显示设备可支持语音唤醒功能，显示设备的声音采集器可处于持续采集声音的状态。用户说出唤醒词后，显示设备对用户输入的语音指令进行语音识别，识别出语音指令为唤醒词后，可控制显示设备的显示器显示语音交互界面，此时，用户可继续向显示设备输入语音指令。该唤醒词可称为语音唤醒指令，用户继续输入的语音指令可称为语音实时指令。

在一些实施例中，在用户输入一个语音指令后，在显示设备获取语音指令的响应数据或显示设备根据响应数据进行响应的过程中，显示设备的声音采集器可保持声音采集的状态，用户可随时按住遥控器上的语音控制按键重新输入语音指令，或者说出唤醒词，此时，显示设备可结束上一次的语音交互进程，根据用户新输入的语音指令，开启新的语音交互进程，从而保障语音交互的实时性。

在一些实施例中，在显示设备的当前界面为语音交互界面时，显示设备对用户输入的语音指令进行语音识别后，得到语音指令对应的文本，显示设备自己或显示设备的服务器对该文本进行语义理解后得到用户意图，对用户意图进行处理得到语义解析结果，根据语义解析结果生成响应数据。

示例性的，在显示设备根据接收到语音唤醒指令开启语音对话的语音交互方式下，发出语音唤醒指令的用户可称为目标人。

在一些实施例中，目标人也可为显示设备上的注册用户，用户在显示设备上进行注册时，可在显示设备上录入声纹信息和人脸图像。

在部分语音交互场景下，由于环境噪声干扰和非目标人的声音干扰等原因，显示设备可能出现被误唤醒，或者不能根据收集的音频准确识别目标人的意图的情况，这将严重影响用户的语音交互体验。

通常通过结合音频信号处理和视频信号处理的方法，能够有效提高在复杂语音交互场景下的语音交互体验。

在一些实施例中，为采集在语音交互过程中所需的视频信号，显示设备可设置有摄像头，或连接外置摄像头。

以显示设备设置有摄像头为例，图6中示例性示出了根据一些实施例的语音交互的场景示意图，参见图6，为根据一些实施例的语音交互场景示意图。如图6所示，在一些实施例中，显示设备200可设置有摄像头201，摄像头201可拍摄图像。若摄像头是固定在显示设备200上的，只能拍摄一定视场内的图像，如图6中A区域范围内的图像，A区域的视场角可为α，α小于180度。当用户站在A区域时，摄像头201能拍摄到用户，而当用户站在B区域和C区域时，摄像头201无法拍摄到用户，其中，B区域是A区域的左侧区域，C区域是A区域的右侧区域。

在一些实施例中，为扩大摄像头201的视场，摄像头201可设置有云台或其他能调整摄像头的视场角的结构。云台可调整摄像头201的视场，显示设备的控制器可与摄像头连接，通过云台控制摄像头的视场动态变化，使摄像头201在转动后的视场可达到0-180度，从而能拍摄到0-180度范围内的用户，其中，0度表示用户站在显示设备200的左侧，且与显示设备200在同一平面，180度表示用户站在显示设备200的右侧，且与显示设备200在同一平面。可见，通过转动摄像头，可使摄像头拍摄到位于B区域和C区域的用户，达到了只要是用户站在显示设备200前方，就能通过转动摄像头201拍摄到用户的效果。

在一些实施例中，显示设备通过外置摄像头进行图像采集，该外置摄像头可为设置有云台的摄像头，从而能实现动态视场的图像采集。

在一些实施例中，摄像头201自身没有云台，可安装在一个与显示设备通信连接的云台上，通过显示设备对云台的控制，也可实现动态视场的图像采集。

在一些实施例中，显示设备结合音频信号处理和视频信号处理的方法可参见图7，为根据一些实施例的语音交互过程的信号处理示意图。

其中，声源定位可包括确定音频来源与显示设备之间的角度，参见图6，若α为90度，则用户位于B区域时，唤醒角度在0-45度之间，用户位于A区域时，唤醒角度在45-135度之间，用户位于C区域时，唤醒角度在135-180度之间。声源定位可通过多种算法实现，如时间到达差法、波束成形法等等。为实现声源定位，显示设备可设置有麦克风阵列，麦克风阵列包括多个设置在显示设备不同位置的麦克风，每个麦克风均与显示设备的控制器连接，显示设备通过麦克风阵列的多个麦克风收集多路音频信号，通过对多路音频信号进行综合分析，得到唤醒角度。例如，在时间到达差法中，显示设备可根据多个麦克风接收到音频信号的时间差，以及多个麦克风之间的相对位置关系，计算出音频来源相对显示设备的位置。在波束成形法中，显示设备可根据各个麦克风所采集到的音频信号进行滤波、加权叠加后形成声压分布波束，根据声压波束的分布特点，得到音频来源相对显示设备的位置。根据音频来源相对显示设备的位置，得到音频来源与显示设备之间的角度。

用户属性识别确定的用户属性可包括用户性别和用户年龄，其中，该年龄可为一个年龄段，如1-10岁，11-20岁，20-40岁，40-60岁等等。用户属性识别可基于预先训练的模型来实现。通过采集大量不同用户属性的音频样本，可基于神经网络训练一个能够预测用户属性的模型，将音频信号输入该模型后，可得到用户属性。

降噪增强可包括对音频信号中的目标人的语音进行增强以及对非目标人的音频进行降噪处理。降噪增强可通过语音定向增强技术实现。通过语音增强波束，动态调整为以目标人为中心的增强波束，对目标人进行语音增强，对波束外的声音进行抑制。

可见，对音频信号的处理实现了对用户位置的确定、用户身份的确定和音频内容的确定。用户位置确定后，可控制摄像头进行转动，以快速定位目标人。用户身份确定后可区分进行语音交互的目标人和其他人。音频内容确定后可得到用户的意图。

图7中示例性示出了根据一些实施例的语音交互的信号处理示意图。如图7所示，在一些实施例中，显示设备通过摄像头拍摄的图像得到视频信号，对视频信号的处理包括人脸检测与跟踪、人脸识别、唇动检测和唇语识别。

其中，在人脸检测与跟踪过程中，可控制摄像头进行转动，以保障目标人始终在摄像头的视场内。

唇动检测可实现在摄像头拍摄的人脸中，判断唇部是否产生了变化，若唇部产生了变化，可确定人物正在讲话，若唇部未变化，可确定人物没有在讲话。若有人物正在讲话，可结合人脸识别技术，确定正在讲话的人物是否为目标人，若正在讲话的人物包括目标人，可确定接收到的音频信号包含了该目标人的语音，若正在讲话的人物不包括目标人，可确定接收到的音频信号不包含该目标人的语音。

唇语识别可识别正在讲话的人物的讲话内容，该讲话内容可用于与根据音频信号的语音识别得到的音频内容进行比对分析，若一致或大体一致，可认为音频信号的音频内容来源于摄像头拍摄的图像中的人物，相反地，若相差较大，可认为音频信号的音频内容来源于摄像头拍摄的图像之外的人物或环境。在一些实施例中，也可不进行唇语识别，只通过唇动检测来判断确定音频信号的音频内容是否来源于摄像头拍摄的图像中的人物，可减小视频信号处理的资源占用，提高处理效率。

图8为本申请实施例提供的一种唇语识别方法流程示意图。如图8所示，本申请实施例示出了一种通过对摄像头拍摄到的图片进行唇语识别的方法，提高背景噪音场景、远距离场景、声音监听通道被占用场景下，语音识别准确率。

摄像头拍摄的视频可分解为按照时间排序的一帧帧的图像，每一帧图像与前一帧图像之间存在一定的时间差。视频图像中包括有人脸图像帧和无人脸图像帧两种情况，有人脸图像帧又存在侧脸图像帧和正脸图像帧。

显示设备可以根据视频图像，判断当前视频图像中是否存在人脸。在接收到某一帧视频图像后，利用预存的人脸关键点检测算法判断当前视频图像中是否存在人脸。

为分散任务耗时，在相邻两帧视频图像的间隔时间段内，对前一帧视频图像进行人脸关键点检测。此处，相邻两帧视频图像为在时间顺序上相邻的视频图像，前一帧视频图像是指相邻两帧视频图像中时间顺序在前的视频图像。具体的，第一帧视频图像与第二帧图像之间的间隔时间段内，对第一帧视频图像进行人脸关键点检测，检测第一帧视频图像中是否存在人脸。同理，在第二帧视频图像与第三帧图像之间的间隔时间段内，对第二帧视频图像进行人脸关键点检测，检测第二帧视频图像中是否存在人脸。

真实应用场景下人与摄像头相对角度对唇语识别影响较大，很多情况下摄像头捕获的人可能并非在向设备发送指令，而是在与他人交谈，而这部分数据如果通过端到端模型方式判别，需要收集的数据量过大，且不能完全保证实用性。本申请实施例中通过人脸特征点几何的方式筛除非正脸视频图像数据，保留正脸视频图像数据。

图9为本申请实施例示出的一种人脸关键点示意图。通过人脸检测算法得到的人脸关键点(68关键点)如图9。人脸正对摄像头时候检测到的关键点应该时左右对称的，基于此，我们可通过在68关键点中左右和中间各选取一个或多个关键点来判断68关键点整体分布的对称性来判断是否为正脸。采用VVAD(视觉发音位置检测)几何算法进行唇部预处理。

在本申请的一些实施例中，分别将图中标注的关键特征点以point1、point2、point3……point68标记。其中，pointa(xa，ya)中表示关键点a的坐标为(xa，ya)。选取一左侧关键点、一右侧关键点和一中间点，计算三点之间的相互水平距离；计算左右两点相对中间点水平距离分布值；根据水平距离分布值计算左右距离分布差值，左右距离分布差值与预设阈值进行比较。如果左右距离分布差值大于预设阈值，该视频图像为侧脸图像。

选取一左侧关键点、一右侧关键点和一中间点，记为：point左(x左，y左)、point右(x右，y右)、point中(x中，y中)，其中左侧关键点与右侧关键点为人脸关键点示意图中堆成位置的点。

计算三点之间的相互水平距离：

Delta左_中＝|x中-x左| (1)

Delta右_中＝|x右-x中| (2)

Delta左_右＝|x右-x左| (3)

其中公式(1)、(2)、(3)中，Delta左_中代表左侧关键点与中间点之间的水平距离；Delta右_中代表右侧关键点与中间点之间的水平距离；Delta左_右代表左侧关键点与右侧关键点之间的水平距离。

计算左右两点相对中间点水平距离分布值：

DistrR＝Delta左_中/Delta左_右 (4)

DistrL＝Delta右_中/Delta左_右 (5)

其中，公式(4)、(5)中DistrR代表右侧关键点水平距离分布值；DistrL代表左侧关键点水平距离分布值。

计算左右距离分布差值

左右距离分布差值大于预设阈值，则视频图像为侧脸图像；左右距离分布差值小于或等于预设阈值，则视频图像为正脸图像。

预设阈值可根据经验值进行设定，在本申请实施例中预设阈值选取0.1。

在本申请的一些实施例中，还可选取多组对称的左侧关键点与右侧关键点，对所有对称的左侧关键点分别计算左右距离分布差值，再对全部的左右距离分布差值取平均数，根据平均数与预设阈值进行比较。

以下以point1(x1,y1)、point17(x17,y17)、point9(x9,y9)为例介绍判断视频图像对否为正脸图像：

计算point1、point9、point7三点相互水平距离，代入公式(1)、(2)、(3)中，得到如下：Delta1_9＝|x9-x1|；Delta17_9＝|x17-x9|；Delta1_17＝|x17-x1|。

将计算得到的三点相互水平距离，代入公式(4)、(5)中，计算左右两点相对中间点水平距离值分布得到：

DistrR＝Delta1_9/Delta1_17；DistrL＝Delta17_9/Delta1_17。

将左右两点相对中间点水平距离值代入公式(6)，计算得到左右距离分布差值：

如果此插值大于预设阈值，则为侧脸视频图像；如果此插值小于或等于预设阈值，则为正脸视频图像。

调用VVAD特征提取器，对每一帧正脸视频图像进行特征提取，并将每一帧视频图像提取的VVAD特征向量保存在双向链表中。双向量表存储量满足预设存储阈值时，调取VVAD分类器判断双向量表中当前帧是否为发音帧，得到VVAD分类结果，删除双向链表的表头，等待下一帧正脸视频图像的VVAD特征向量的存入。

在本申请实施例中预设存储阈值为n。

删除双向链表的表头，等待下一帧正脸视频图像的特征向量的存入过程中，删除已存储的双向链表中第一组正脸视频图像的特征向量，将前一次的第n组正脸视频图像的特征向量作为当前第n-1组正脸视频图像的特征向量，新加入的正脸视频图像的特征向量作为第n组正脸视频图像的特征向量，存储至双向链表中。

通过视觉发音位置检测技术定位整个视频片段中的发音位置，是准确切去发音唇语序列关键，也是唇语识别模型效果可信的基础。本申请实施例采用了基于特征点几何计算的VVAD过滤筛和基于模型过滤筛两种机制，对双向链表中存储的数据通过双过滤机制，保证VVAD分类结果的准确性。

基于特征点的VVAD几何算法主要处理用户保持某一嘴型不变情况，如微笑、半张嘴等情况，当然，由于此算法比较依赖人脸特征点检测算法定位关键点的稳定性，为了保证VVAD分类结果准确性，还需要基于模型的VVAD算法配合使用。

本申请实施例示出的VVAD分类器采用基于特征点的VVAD几何算法，具体如下：

参考图9根据对正脸视频图像人脸关键特征点检测结果，首先定义三个距离：内嘴唇上下距离、外嘴唇上下距离和左右嘴角距离，其中内嘴唇上下距离、外嘴唇上下距离和左右嘴角距离计算如下：

其中，公式(7)、(8)、(9)中，dist_mouth_inter代表内嘴唇上下距离，dist_mouth_outer代表外嘴唇上下距离，dist_mouth_corner代表左右嘴角距离。

定义参考距离，避免因摄像头远近导致以上三种距离的变化，定义如下：

其中，公式(10)中dist_reference代表参考距离。

根据内嘴唇上下距离、外嘴唇上下距离和左右嘴角距离以及参考距离，计算得到相对距离，包括内嘴唇相对距离、外嘴唇相对距离和左右嘴角相对距离：

dist_mouth_inter_ref＝dist_mouth_inter/dist_reference (11)

dist_mouth_outer_ref＝dist_mouth_outer/dist_reference (12)

dist_mouth_corner_ref＝dist_mouth_corner/dist_reference (13)

其中，公式(11)、(12)、(13)中，dist_mouth_inter_ref为内嘴唇相对距离，dist_mouth_outer_ref为外嘴唇相对距离，dist_mouth_corner_ref为左右嘴角相对距离。

通过以下公式定义第N帧和第N-1帧的变化：

dist_mouth_inter_ref_delta＝|dist_mouth_inter_ref N-dist_mouth_inter_ref N-1| (14)

dist_mouth_outer_ref_delta＝|dist_mouth_outer_ref N-dist_mouth_outer_ref N-1| (15)

dist_mouth_corner_ref_delta＝|dist_mouth_corner_ref N-dist_mouth_corner_ref N-1| (16)

其中，公式(14)、(15)、(16)中，dist_mouth_inter_ref_delta表示第N帧和第N-1帧之间内嘴唇相对距离的变化值，dist_mouth_outer_ref_delta表示第N帧和第N-1帧之间外嘴唇相对距离的变化值，dist_mouth_corner_ref_delta表示第N帧和第N-1帧之间左右嘴角相对距离的变化值。

为表征时间序列上嘴巴的变化程度，一般选取一定步长的连续几帧求变化总和，如下：

其中，公式(17)、(18)、(19)中，n为双向链表的预设存储阈值，dist_mouth_inter_ref_delta_sum表示当前双向链表内n个内嘴唇相对距离的变化值总和，dist_mouth_outer_ref_delta_sum表示当前双向链表内n个外嘴唇相对距离的变化值总和，dist_mouth_corner_ref_delta_sum表示当前双向链表内n个左右嘴角相对距离的变化值总和。以上三组距离总和与预设极限阈值对比，确定当前帧是发音状态还是静默状态，此预设极限阈值根据经验确定。此时，当前帧表示当前双向链表中的第n帧。

预设极限阈值包括：内嘴唇极限值、外嘴唇极限值和左右嘴角极限值。内嘴唇相对距离的变化值总和与内嘴唇极限值对比，外嘴唇相对距离的变化值总和与外嘴唇极限值对比，左右嘴角相对距离的变化值总和与左右嘴角极限值对比。

内嘴唇相对距离的变化值总和大于内嘴唇极限值、外嘴唇相对距离的变化值总和大于外嘴唇极限值、左右嘴角相对距离的变化值总和大于左右嘴角极限值，则判断当前帧为发音帧。VVAD分类器判断当前视频帧为发音帧，则对当前视频帧采用唇语特征提取器提取唇语特征向量，将唇语特征向量存储至唇语识别链表。唇语识别链表的容量不受限制。

内嘴唇相对距离的变化值总和小于或等于内嘴唇极限值，或外嘴唇相对距离的变化值总和小于或等于外嘴唇极限值，或左右嘴角相对距离的变化值总和小于或等于左右嘴角极限值，则判断当前帧为静默帧。VVAD分类器判断当前帧为静默帧。

VVAD分类器判断某一帧为静默帧，则唇语识别链表中的唇语特征向量数据打包发送给唇语特征分类器，进行唇语识别分类。清空唇语识别链表，等待下一次发音帧的特征向量输入。

唇语特征分类器对唇语识别链表中的唇语特征向量数据进行分析，输出唇语语音。

图10为本申请实施例提供的唇语识方法中各个任务的调用情况示意图，如图10中所示，视频帧包括：无人脸图像帧、有人脸图像帧、有人脸静默帧和有人脸发音帧。本方法中调用的任务包括：人脸关键点检测、VVAD几何算法、VVAD特征提取器、VVAD分类器、唇语特征提取器、唇语特征分类器在以上视频帧中：人脸关键点检测为每一帧图像均需执行的任务；VVAD几何算法为对有人脸图像帧、有人脸静默帧和有人脸发音帧的图像执行任务；VVAD特征提取对有人脸图像帧、有人脸静默帧和有人脸发音帧进行数据处理；VVAD分类对有人脸图像帧、有人脸静默帧和有人脸发音帧进行判断；唇语特征提取和唇语特征分类为对有人脸发音帧进行数据处理，且唇语特征分类仅在某一段发音帧结束的时间段执行。

本申请实施例中把较为耗时的提取时序信息的模型(VVAD模型和唇语识别模型)拆解成了特征提取器+分类器方式分散了这部分模型运行时的耗时，避免在某一时刻集中计算时摄像头展示画面延时现像。

在本申请还提供了另一种实施例，VVAD特征提取器和唇语特征提取器通过同一模型多目标优化的方式压缩成一个模型，可以同时输出VVAD特征向量和唇语特征向量。

调用VVAD特征提取器，对当前帧的正脸视频图像进行特征提取，得到VVAD特征向量和唇语特征向量。将当前帧的视频图像提取的VVAD特征向量保存在双向链表中。双向量表存储量满足预设存储阈值时，调取VVAD分类器判断当前帧是否为发音帧，得到VVAD分类结果。VVAD分类器判断当前帧为发音帧，则将当前帧的唇语特征向量存储至唇语识别链表。VVAD分类器判断某一帧为静默帧，则唇语识别链表中的唇语特征向量数据打包发送给唇语特征分类器，进行唇语识别分类。清空唇语识别链表，等待下一次发音帧的特征向量输入。

通过把较为耗时的提取时序信息的模型(VVAD模型和唇语识别模型)拆解成了特征提取器+分类器方式分散了这部分模型运行时的耗时，避免在某一时刻集中计算时摄像头展示画面延时现像。同时，VVAD特征提取器和唇语识别特征提取器通过同一模型多目标优化的方式压缩成一个模型，可以同时输出VVAD特征向量和唇语特征向量。实现同一模型完成多任务的方式，进一步节省显示设备端的计算资源，降低对显示设备端硬件的算力要求。

在本申请的一些实施例中，唇语预处理还包括：通过旋转、平移等操作最大限度对齐同一时间序列的唇部数据。

与前述唇语识别方法的实施例相对应，本申请还提供了唇语识别装置的实施例。图11为本申请实施例提供的一种唇语识别装置的示意图。图11所示，该装置包括：信号输入模块、人脸关键点检测模块、唇部预处理模块、VVAD模块、及唇语识别模块以及设备控制模块。

其中，信号输入模块可以为摄像头，用于采集外部视频信号，将视频信号传输送人脸关键点检测模块。

人脸关键点检测模块利用人脸检测算法，得到人脸关键点数据。

唇部预处理模块利用VVAD几何算法进行唇部预处理，删除非正脸数据，保留正脸数据，并执行唇部对齐、唇部缩放、唇部增强，减小头部摆动或扭动对唇语识别结果的影响。

VVAD模块利用预处理后的数据，进行VVAD特征向量的提取和分类，输出当前视频帧的发音状态。

唇语识别模块对发音帧的数据进行唇语特征向量的提取和识别，输出唇语识别结果至设备控制模块，实现对显示设备的语音控制，实现交互。

在本申请的一些实施例中，人脸关键点检测模块用MTCNN，Multi-taskconvolutional neural network(多任务卷积神经网络)，但不限于MTCNN，其他人脸检测算法均可。MTCNN将人脸区域检测与人脸关键点检测放在了一起。总体可分为P-Net、R-Net、和O-Net三层网络结构。

P-Net是一个人脸区域的区域建议网络，该网络的将特征输入结果三个卷积层之后，通过一个人脸分类器判断该区域是否是人脸，同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议，该部分最终将输出很多张可能存在人脸的人脸区域，并将这些区域输入R-Net进行进一步处理。

因为P-Net的输出只是具有一定可信度的可能的人脸区域，在这个网络中，将对输入进行细化选择，并且舍去大部分的错误输入，并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位，最后将输出较为可信的人脸区域，供O-Net使用。对比与P-Net使用全卷积输出的1x1x32的特征，R-Net使用在最后一个卷积层之后使用了一个128的全连接层，保留了更多的图像特征，准确度性能也优于P-Net。

O-Net是一个更复杂的卷积网络，该网络的输入特征更多，在网络结构的最后同样是一个更大的256的全连接层，保留了更多的图像特征，同时再进行人脸判别、人脸区域边框回归和人脸特征定位，最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。O-Net拥有特征更多的输入和更复杂的网络结构，也具有更好的性能，这一层的输出作为最终的网络模型输出。

在本申请的一些实施例中，VVAD模块整合了特征点几何方法和模型方法，VVAD模型采用VVAD特征提取器+VVAD分类器的组合方式。VVAD特征提取器可选用适于端侧部署的MobileNet系列模型，也可选用GhostNet，最终输出一定数量的特征(如1*512维)。VVAD分类器可采用LSTM/GRU等，也可采用时间维度的卷积网络如TCN等，模型输入大小由VVAD步长和特征维度决定，如步长设置为10，则分类模型输入为10*512。模型为二分类任务(发音/静默)，最终输出为1*2数组。

唇语识别模型与VVAD模型类似，唇语识别模型采用唇语特征提取器+唇语特征分类器的组合方式。唇语特征提取器可选用适于端侧部署的MobileNet系列模型，也可选用GhostNet，最终输出一定数量的特征(如1*512维)，唇语特征分类器可采用LSTM/GRU等，也可采用时间维度的卷积网络如TCN等。在特征输入分类器前，应该为(n*512)n为发音帧数，此时通过插帧提取或重复拷贝的方式将特征序列固定到16*512维(16为人为设定，可改)，然后输入分类器(若用LSTM/GRU的方式，则不需要固定操作)，最终输出分类结果。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践本申请的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种唇语识别方法，其特征在于，包括：

对视频帧图像进行人脸关键点检测，删除所述视频帧图像中的无人脸图像帧和侧脸图像帧；

2.根据权利要求1所述的唇语识别方法，其特征在于，所述对所述唇语特征链表中的数据进行唇语特征分类包括：

如果所述视频帧图不为发音帧，将所述唇语特征链表中的数据发送至唇语分类器，清空所述唇语特征链表。

3.根据权利要求1所述的唇语识别方法，其特征在于，所述提取所述视频帧图像的VVAD特征向量前，还包括：对所述视频帧图像进行唇语预处理。

4.根据权利要求1所述的唇语识别方法，其特征在于，所述视频帧图像为当前所述双向链表中最后一帧视频帧图像。

5.一种唇语识别方法，其特征在于，包括：

6.根据权利要求5所述的唇语识别方法，其特征在于，所述对所述唇语特征链表中的数据进行唇语特征分类包括：

如果所述视频帧图不为发音帧，将所述唇语特征链表中的数据发送至唇语分类器；

唇语分类器对所述数据进行分类；

清空所述唇语特征链表。

7.一种显示设备，其特征在于，包括：

摄像头，采集视频帧图像；

处理器，被配置为：

对所述视频帧图像进行人脸关键点检测，提取所述视频帧图像的VVAD特征向量，并将所述VVAD特征向量保存至双向链表中；

对所述唇语特征链表中的数据进行唇语特征分类，输出唇语识别结果；

控制器，接收所述唇语识别结果，并控制显示。

8.根据权利要求7所述的显示设备，其特征在于，处理器被进一步配置为：

人脸关键点检测模块，用于对所述视频帧图像进行人脸关键点检测，删除侧脸图像和无人脸图像，输出筛选后视频帧图像；

VVAD特征提取器，用于提取所述筛选后视频帧图像的VVAD特征向量，并将所述VVAD特征向量存储至双向链表；

VVAD分类器，用于所述双向链表中存储量大于预设阈值时，对当前视频帧图像进行分类，判断所述前视频帧图像是否为发音帧；

唇语特征提取器，用于对所述发音帧进行唇语特征提取，并将所述唇语特征存储至唇语特征量链表；

唇语分类器，对所述唇语特征量链表中数据进行分类，输出唇语分类结果。

9.根据权利要求7所述的显示设备，其特征在于，处理器被进一步配置为：

特征提取模块，用于提取所述筛选后视频帧图像的VVAD特征向量和唇语特征向量，并将所述VVAD特征向量存储至双向链表，将所述唇语特征存储至唇语特征量链表；

唇语分类器，用于所述前视频帧图像不是发音帧时，对所述唇语特征量链表中的发音帧数据进行分类，清空所述唇语特征量链表。

10.根据权利要求8或9中任一项所述的显示设备，其特征在于，所述处理器还包括：

唇部预处理模块，用于对所述视频帧图像进行唇部预处理。