CN108446641A

CN108446641A - 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法

Info

Publication number: CN108446641A
Application number: CN201810239905.2A
Authority: CN
Inventors: 曾金辉
Original assignee: Shenzhen DBK Electronics Co Ltd
Current assignee: Shenzhen DBK Electronics Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-24

Abstract

本发明公开了一种基于机器学习的口形图像识别系统，包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块；所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接，还包括口形模型库模块，所述口形模型库模块与主控模块电性连接；所述口形视频图形采集模块，通过设于其内的前置摄像头来采集目标人员的唇部视频图像；本发明还提供了一种通过面纹识别发声的方法。本发明通过摄像头将唇语转换成图像信息，其能够快速的进行信息处理转换，并具有深度学习功能，能够逐渐适应使用者的表达习惯，具有一定的实时性和实用性。

Description

一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法

技术领域

本发明涉及一种通过唇语来识别所发出声音的系统，尤其适用于聋哑人，属于电子技术领域，具体涉及一种基于机器学习的口形图像识别系统，本发明还提供了一种通过面纹识别发声的方法。

背景技术

目前的聋哑人交互设备，大多是通过手语图像的信息采集、比对来实现的，例如国内的申请公开号CN 106686223 A，名称为“聋哑人与正常人的辅助对话系统、方法及智能手机”的专利。其只能通过文字输入的方式，不能通过唇语来读取发出的声音，其极大的限制了实用性。实时性较差，使用不够方便。

发明内容

本发明为了解决现有技术中存在的问题，提供了一种可以通过对唇语信息的采集、处理，直接发出他人想要发出的声音，正常人能够直接听到的口形图像识别系统。

为了实现上述目的，本发明采用以下技术方案：

一种基于机器学习的口形图像识别系统，包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块；所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接，还包括口形模型库模块，所述口形模型库模块与主控模块电性连接。

所述口形视频图形采集模块，通过设于其内的前置摄像头来采集目标人员的唇部视频图像；

所述视频分析模块，采用图像分析技术，对所述唇部视频图像进行分析，获取唇部口形的特征值；

所述主控模块，用于整个系统的控制及管理；

所述口形模型匹配模块，用于将所述唇部口形的特征值与口形模型库模块中口形模型的特征值进行比对、匹配；

所述语音输出模块，用于接收口形模型匹配模块4的信号，输出匹配出的音频信号，并通过喇叭发出匹配的声音；

所述口形模型库模块，利用机器学习技术，根据唇部口形图像及输入的对应文字进行自学习，建立相应的口形模型。

进一步的，所述唇部口形的特征值，包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。

进一步的，还包括显示模块，所述显示模块设有显示屏，用于显示文字内容，还设有键盘，用于文字内容的输入，所述显示模块与口形模型匹配模块电性连接。

进一步的，还包括按键模块，所述按键模块用于开关控制，所述按键模块与主控模块电性连接。

进一步的，所述显示模块设有APP，通过所述APP可以进行功能模式切换及进行自学习。

进一步的，所述口形模型库模块内还设有机器学习算法模块。

本发明还提供了一种通过面纹识别发声的方法，包括如下步骤：

a.通过显示模块上的APP，打开口形视频图形采集模块中的摄影头；

b.在摄影头的视野中识别软件自动搜寻目标人物的面部局部图像信息；

c.在搜寻过程中通过软件测量的节点来比对面部局部特征；

d.检测到面部局部图像信息后，确定头部的位置、大小和姿态，只有在面部与摄像头至少成一定角度的情况下，才会记录该面部局部图像信息；

e.在视频分析模块中对面部局部图像信息进行缩放、旋转和分析，执行标准化过程，以便能记录和映射到相应头部的位置、大小和姿态，无论口型和喉部的位置如何，以及相距摄像机的距离有多远，都可以执行标准化过程，光线不会对标准化过程产生影响；

f.在主控模块中采用局部特征分析(LFA)算法，对唇部和喉部部分的局部特征图像信息进行分析、运算，获取相应的特征值，并生成一个面纹，并将该面纹设为该图像信息的唯一数字编码；

g.在口形模型匹配模块中将该面纹与口形模型库模块中已经存储的面纹图像模型进行数据对比、匹配，并将该面纹链接到至少一个已存储的面纹图像模型；

h.通过语音输出模块发出该面纹相应要发出的声音。

其中，所述面部局部图像信息，包括唇部和喉部部分的局部特征图像信息。

其中，所述节点包括嘴角间距，唇启距离，喉部波动频率。

本发明的有益效果：能够将唇语或输入的文本转换为语音，将正常人的语音转换为文本，是读取唇语的有效工具，是一款聋哑人可随身携带的用于和正常人面对面现场交流的有效工具，能够快速的进行信息处理转换，并具有深度学习功能，能够逐渐适应使用者的表达习惯，具有一定的实时性和实用性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明的方框原理示意图。

附图明细如下：口形视频图形采集模块1，视频分析模块2，按键模块3，口形模型匹配模块4，语音输出模块5，显示模块6，口形模型库模块7，主控模块8。

具体实施方式

为了使本发明解决的技术问题、采用的技术方案、取得的技术效果易于理解，下面结合具体的附图，对本发明的具体实施方式做进一步说明。

如图1所示，一种基于机器学习的口形图像识别系统，包括口形视频图形采集模块1、视频分析模块2、主控模块8、口形模型匹配模块4及语音输出模块5；所述口形视频图形采集模块1、视频分析模块2、主控模块8、口形模型匹配模块4及语音输出模块5依次电性连接，还包括口形模型库模块7，所述口形模型库模块7与主控模块8电性连接。

所述口形视频图形采集模块1，通过设于其内的前置摄像头来采集目标人员的唇部视频图像。

所述视频分析模块2，采用图像分析技术，对所述唇部视频图像进行分析，获取唇部口形的特征值；

所述主控模块8，用于整个系统的控制及管理。

所述口形模型匹配模块4，将所述唇部口形的特征值与口形模型库模块7中口形模型的特征值进行比对、匹配。

所述语音输出模块5，用于接收口形模型匹配模块4的信号，输出匹配出的音频信号，并通过喇叭发出匹配的声音。

所述口形模型库模块7，利用机器学习技术，根据唇部口形图像及输入的对应文字进行自学习，建立相应的口形模型。

进一步的，为了增加发声时，唇语读取的准确性及可靠性，所述唇部口形的特征值，包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。

进一步的，还包括显示模块6，所述显示模块6设有显示屏，用于显示文字内容，还设有键盘，用于文字内容的输入；所述显示模块6与口形模型匹配模块4电性连接。

进一步的，还包括按键模块3，所述按键模块3用于开关控制，所述按键模块3与主控模块8电性连接。

进一步的，所述口形模型库模块7内还设有机器学习算法模块。

所述口形模型库模块7具有深化机器学习的功能。

所述深化机器学习的方法采用如下步骤：

a.在显示屏上设置APP,由APP提供口型表；

b.APP提供单个文字，用户根据该单个文字和唇部动作来深化机器学习；

c.APP提供短语句，用户根据该短语句和唇部动作来深化机器学习；

d.APP提供短文，用户根据短文和唇部动作来深化机器学习。

c.在搜寻过程中通过软件测量的节点来比对面部局部特征；

h.通过语音输出模块发出该面纹相应要发出的声音。

其中，所述节点包括嘴角间距，唇启距离，喉部波动频率。

其中，所述APP上设有口型表。

本发明的一种基于机器学习的口形图像识别系统，具有学习和交流两种功能模式，由APP来进行功能切换。

当在学习模式时，唇语的视频图像信息由口形视频图形采集模块1中的前置摄像头采集使用者的唇部视频图像信息，经视频分析模块2分析、处理，获取唇部和喉部部分的特征值，在模型库模块4上建立相应的面纹；文字信息由显示模块6的键盘上同步输入并存储在口形模型库模块4上。

学习时，可以先从最基础的字母A、B、C及单个文字开始学习，再逐步增加难度，学习是一个不断进步的过程。该系统采用了机器学习技术，根据唇部口形图像、喉部部分的图像及输入的对应文字进行自学习，具有人工智能的记忆和深度学习功能，经过一段时间的学习，系统会掌握唇语的变化规律，并不断完善。

当在交流模式时，聋哑人唇部作出说话动作，由口形视频图形采集模块1将唇部及喉部部分的局部特征图像信息采集，经视频分析模块2采用图像分析技术，对该信息进行分析，在主控模块中采用局部特征分析(LFA)算法，对唇部和喉部部分的局部特征图像信息进行分析、运算，获取相应的特征值，并生成一个面纹，并将该面纹设为该图像的唯一数字编码。

该面纹在口形模型库模块4中与模型库模块7中存储的面纹图像模型进行比对、匹配，由语音输出模块5输出聋哑人想要发出的声音与正常人直接进行声音交流，同时由显示模块6显示出相应的文字信息。

正常人或聋哑人都可以由显示模块6上的键盘输入文字，由显示模块6上的显示屏显示出相应的文字信息正常人或聋哑人观看。

上述键盘可以采用硬键盘或软键盘。

值得注意的是，该基于机器学习的口形图像识别系统，当正常人由于距离或其它原因，听不到他人说话的声音时，可以远程监听他人的说话，只要摄像头捕捉的视频图像信息足够清晰即可实现。可以作为远程唇语读取装置来使用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本实实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于机器学习的口形图像识别系统，其特征在于：包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块；所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接，还包括口形模型库模块，所述口形模型库模块与主控模块电性连接；

所述主控模块，用于整个系统的控制及管理；

所述语音输出模块，用于接收口形模型匹配模块的信号，输出匹配出的音频信号，并通过喇叭发出匹配的声音；

2.如权利要求1所述的口形图像识别系统，其特征在于：所述唇部口形的特征值，包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。

3.如权利要求1所述的口形图像识别系统，其特征在于：还包括显示模块，所述显示模块设有显示屏，用于显示文字内容，还设有键盘，用于文字内容的输入，所述显示模块与口形模型匹配模块电性连接。

4.如权利要求1或3所述的口形图像识别系统，其特征在于：还包括按键模块，所述按键模块用于开关控制，所述按键模块与主控模块电性连接。

5.如权利要求1所述的口形图像识别系统，其特征在于：所述显示模块设有APP，通过所述APP可以进行功能模式切换及进行自学习。

6.如权利要求1所述的口形图像识别系统，其特征在于：所述口形模型库模块内还设有机器学习算法模块。

7.一种通过面纹识别发声的方法，其特征在于：包括如下步骤：

c.在搜寻过程中通过软件测量的节点来比对面部局部特征；

h.通过语音输出模块发出该面纹相应要发出的声音。

8.如权利要求7所述的方法，其特征在于：所述面部局部图像信息，包括唇部和喉部部分的局部特征图像信息。

9.如权利要求7所述的方法，其特征在于：所述节点包括嘴角间距，唇启距离，喉部波动频率。

10.如权利要求7所述的方法，其特征在于：所述APP上设有口型表。