CN118098238B

CN118098238B - 基于唇动语言识别的降噪处理方法及装置

Info

Publication number: CN118098238B
Application number: CN202410496598.1A
Authority: CN
Inventors: 黄锴; 李艳霞; 李鹏举; 范晓梅
Original assignee: Shenzhen Wanping Times Technology Co ltd
Current assignee: Shenzhen Wanping Times Technology Co ltd
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-06-25
Anticipated expiration: 2044-04-24
Also published as: CN118098238A

Abstract

本申请提供了一种基于唇动语言识别的降噪处理方法及装置，持续通过视觉系统和麦克风阵列共同采集音视频数据；检测到音视频数据对应的图像序列中，在第一位置预设范围内的区域存在两个以上唇动者时，利用第一唇语识别算法识别出各不同唇动者的唇语对应的第二文本；其中，所述第一唇语识别算法为二分类的唇语识别算法；将各不同唇动者的唇语对应的第二文本和语音唤醒信号对应的第一文本进行对比，将对比结果为相对应的唇动者确定为交互者；对麦克风阵列采集到的交互者的语音信号进行语言识别，以便实现语音交互。能够在允许优化唇语识别算法准确率的情况下，同时加快结合唇语识别从多人同时说话场景中确定出交互者的速度。

Description

基于唇动语言识别的降噪处理方法及装置

技术领域

本发明属于语音交互技术领域，特别涉及一种基于唇动语言识别的降噪处理方法及装置。

背景技术

在语音交互设备中，为了获得更好的拾音效果，一般在硬件上使用麦克风阵列并配合波束形成的软件算法，实现定向拾音，即实现对声音信号的降噪处理。其原理为：麦克风阵列中每个麦克风的位置不同，因此接收到语音信号的时间不同，选定一个麦克风作为参考麦克风，计算出目标声源到达参考麦克风的时间，然后计算其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，进行时间补偿以使各通道的语音信号同步，将各通道的信号相加，可以使目标方向的信号同相叠加得到增强，等效于阵列波束图的主瓣对准目标方向，其它方向相比于主瓣方向均有不同程度的削弱。从而实现对指定方向的语音信号进行增强，对其他方向的语音信号进行削弱，这就是麦克风阵列拾音的指向性。通过调整其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，可以调整麦克风阵列的指向性。

具体的，摄像头发现进入预设范围内的人之后，通过视觉定位确定人的第一位置，然后调整麦克风阵列的指向性，使得麦克风阵列波束的主瓣对准第一位置，实现对人声音信号的降噪处理，从而提升语音交互的效果。如果拍摄到同时进入预设范围内的人为多个时，相关技术中一般通过图像识别技术识别出其中存在唇动（即存在唇形张合状态）的人作为交互者，后续通过图像识别技术跟踪交互者的位置并仅对交互者的声音作为响应。

然而，在实际场景中，语音交换设备的摄像头会拍摄到多个人同时进入预设范围内并且多个人同时处于唇动状态，仅仅判断其中某个人是否存在唇形张合状态仍无法精确地确定交互者。举例而言，科技馆内的参观者A与参观者B、C三者聊天的同时均步入到了语音交互设备的预设范围内，并被语音交互设备的摄像头捕捉到三者同时出现的画面，由于语音交互设备上集成了chatGPT为代表的生成式人工智能程序，参观者A需要向参观者B和C进行展示生成式人工智能程序的功能，因此需要唤醒语音交互设备，于是A说出了唤醒词“你好，小万”，与此同时参观者B和C仍持续处于聊天状态，在该场景下，通过摄像头拍摄到的视频中的A、B、C三人都存在唇形张合状态，因此仅仅判断是否存在唇形张合状态仍无法精确地确定说出唤醒词的对象（即交互者）。

发明人研究发现，专利文献1（公开号为CN111179927A）披露了一种金融设备语音交互系统，该语音交互系统中集成了唇语识别模块，该系统提供的思路可以用于解决上述问技术题。具体的，文献1中在开启唇语识别后，采集的唇型通过与数据库进行分析对比，产生相应语言文本。将音频文本与唇语文本进行对比，判断音频文本是否为设备前面的人的语音。基于文献1的启发，可以结合唇语识别模块从摄像头拍摄到的视频中识别出A、B、C三人的唇语文本，然后与唤醒词进行对比，从而精确地确定说出唤醒词的对象（称为交互者），一旦确定说出唤醒词的对象就可以通过人脸识别技术绑定交互者，从而在后续的交互阶段中，使得语音交互系统可以只对交互者的声音进行响应。定义：上述确定说出唤醒词的对象并通过人脸识别技术绑定交互者的过程称之为唤醒阶段；而交互阶段则是在唤醒阶段之后，采集交互者的说话声音信号、将声音信号转换为文本并将文本输入到生成式人工智能程序以及通过语音播放的形式向交互者展示上述人工智能程序生成的答案的过程。另一方面，唇语识别除了应用在唤醒阶段确定说出唤醒词对应的交互者；在交互阶段，如果存在干扰较大的噪声时，也可以使用唇语识别模块来获取交互者说话时唇语所对应的文本，从而将该文本输入到生成式人工智能程序中，以排除噪声对交互过程拾音造成的干扰，即通过唇语识别进行语音输入的降噪。

经研究发现，在集成唇语识别模块的语音交互系统中，存在以下技术困难：要提升通过唇语识别进行语音输入降噪的效果就需要提升唇语识别的准确率，而提升唇语识别准确率一般的优化方式是不断提升唇语识别算法复杂度，例如选择更复杂的网络结构来学习更广泛类型话题的训练数据、增加网络深度和宽度等，但是算法复杂度提升之后，由于模型结构更复杂、模型参数更多等原因，会导致唇语识别的速度变慢。而在结合唇语识别从多人同时说话场景中确定出交互者的任务中，用户的需求是加快确定出交互者的速度，即需要唇语识别的速度变得更快。可见，语音交互系统中提升唇语识别准确率和加快确定出交互者的速度两个优化方向是存在矛盾的。

发明内容

本发明的目的在于至少解决上述问题之一，提供一种基于唇动语言识别的降噪处理方法及装置，能够在允许优化唇语识别算法准确率的情况下，同时加快结合唇语识别从多人同时说话场景中确定出交互者的速度。

为了实现上述发明目的，本发明提供一种基于唇动语言识别的降噪处理方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，所述方法包括：

持续通过视觉系统和麦克风阵列共同采集音视频数据；

从音视频数据中检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置；所述语音唤醒信号对应第一文本；

检测到音视频数据对应的图像序列中，在第一位置预设范围内的区域存在两个以上唇动者时，利用第一唇语识别算法识别出各不同唇动者的唇语对应的第二文本；其中，所述第一唇语识别算法为二分类的唇语识别算法；所述二分类的唇语识别算法为将包含唇语的图像序列分类成两个预定义类别的算法；

将各不同唇动者的唇语对应的第二文本和语音唤醒信号对应的第一文本进行对比，将对比结果为相对应的唇动者确定为交互者；

基于视觉系统实时跟踪定位交互者所在的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置；

对麦克风阵列采集到的交互者的语音信号进行语言识别，以便实现语音交互。

另一方面，一种基于唇动语言识别的降噪处理装置，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述方法的步骤。

相较于现有技术，本发明至少具有优先的有益效果：

相较于现有技术中在唤醒阶段也使用常规的能够识别各种唇语的唇语识别算法来帮助识别出多个唇动者中的交互者，而造成语音交互设备中集成的常规的能够识别各种唇语的唇语识别算法在提升识别准确率和从多人同时说话场景中确定出交互者的任务中，加快确定出交互者的速度二者在优化方向上存在矛盾的问题。通过将两种唇语识别算法集成在语音交互设备上并限定二者分别在不同阶段使用，能够允许通过增加第二唇语识别算法的复杂度来优化第二唇语识别算法的准确率，从而在交互阶段当噪声过大时，通过第二唇语识别算法来获取交互者说话时唇语所对应的文本，从而将该文本输入到生成式人工智能程序中，以排除噪声对交互过程拾音造成的干扰，即通过唇语识别进行语音输入的降噪。同时，由于第一唇语识别算法为复杂度更加低的二分类算法，能够在计算机性能不高的语音交互设备本地更快的进行唇语识别，加快结合唇语识别从多人同时说话场景中确定出交互者的速度。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1为本发明一实施例提供的基于唇动语言识别的降噪处理方法的流程图；

图2为本发明一实施例提供的基于唇动语言识别的降噪处理方法的流程图；

图3为本发明一实施例提供的基于唇动语言识别的降噪处理方法的流程图；

图4为本发明一实施例提供的基于唇动语言识别的降噪处理方法的流程图；

图5为一个实施例中麦克风阵列部署空间关系示意图；

图6为图5中俯视视图；

图7为波束主瓣分别指向30°和7.9793°的情况下，交互者在连续运动状态下的坐标位置关系示意图；

图8为一个实施例中拍摄的视频画面中同时有2个人唇动者的场景示意图；

图9为图7中波束主瓣分别指向30°和7.9793°时二者波束响应的关系示意图；

图10为本发明一实施例中语音交互设备进入互助采集模式时的交互界面；

图11为波束主瓣指向30°时交互者在连续运动状态下的坐标位置关系示意图。

附图标记：10、屏幕；11、取景框；111、不透明图层；112、第一区域；12、唤醒词展示区域；13、挑战评分展示区域；14、奖励发放区域；15、操作区域；151、参加挑战控件；152、开始挑战控件；153、结束挑战控件；16、相机；17、LED照明灯；18、转轴；19、麦克风阵列。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图5，图5示出了语音交互设备上的麦克风阵列19所处的世界空间坐标系，该示例中的麦克风阵列19由7个等间距线性排列在y轴上的阵元构成。阵元之间间距为d，麦克风阵列19总长度为L。在该三维坐标系中，定义空间球面角为，其中θ与φ分别是Ω的水平方位角和垂直俯仰角。从某个视角去观察该三维坐标系，看到的是一个平面。图6为xoy平面，是从图5所示的三维坐标系的z轴正方向向下俯视看到的结果。对xoy平面进行观察，此时φ=90°，声波从水平面xoy的360°范围入射到麦克风阵列19，θ取值为[-180°，180°]，由于线性阵列沿y轴布置，所以波束响应沿y轴镜像对称。声音频率为2000Hz，d=6cm，阵元的数量N=7，指定波束响应的主瓣指向θ=30°，得到的波束图如图7中虚线所示的波束响应，沿y轴镜像对称，图中除了在θ=30°的主瓣，还有沿y轴镜像对称得到在θ=150°的主瓣。图7中虚线圆形为-3dB线，图7中，具体的，由于此时麦克风阵列19的多个阵元沿y轴布置，因此θ取值为0°对应的极轴与正x轴对应，θ取值为180°对应的极轴与负x轴对应，θ取值为90°对应的极轴与正y轴对应，θ取值为-90°对应的极轴与负y轴对应。而在其他的场景中，如果麦克风阵列19沿着z轴在xoy平面发生了转动，即线性阵列不再沿着y轴布置时，则可以将波束成形的特性描述为：波束响应沿极坐标的正或负90°方向对应的极轴呈镜像对称，即沿着麦克风阵列19的多个阵元所排列成的直线呈镜像对称。

参照图1和图8，在一些实施例中，提供了一种基于唇动语言识别的降噪处理方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列19。所述方法包括：

步骤S202，持续通过视觉系统和麦克风阵列19共同采集音视频数据。

具体的，视觉系统包括相机16，相机16能够相对于语音交互设备转动拍摄照片或视频（即图像序列）。音视频数据包括视觉系统采集的视频（一系列连续图像帧）和麦克风阵列19采集的与之同步的音频信号。音视频数据的同步是通过在采集视频和音频时附加时间戳来实现的，确保播放时能够准确地匹配视觉图像与相应的声音。

步骤S204，从音视频数据中检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置；所述语音唤醒信号对应第一文本。

具体的，可以基于FastICA算法从多个混合声音数据中提取出原始的独立声源信号，然后检测各独立声源信号是否为语音唤醒信号。可以理解的是，也可以使用其他的ICA（独立成分分析）算法，此处不作限定。

在一个示例中，声源定位算法为基于到达时间差（TDOA）的定位方法。语音唤醒信号为预先设定的唤醒词对应的语言，例如“你好小万”，此时第一文本为“你好小万”。如图8所示，此时定位出来的第一位置恰好位于甲和乙之间，即声源定位的精度可能收到噪声影响。

步骤S206，检测到音视频数据对应的图像序列中，在第一位置预设范围内的区域存在两个以上唇动者时，利用第一唇语识别算法识别出各不同唇动者的唇语对应的第二文本；其中，所述第一唇语识别算法为二分类的唇语识别算法；所述二分类的唇语识别算法为将包含唇语的图像序列分类成两个预定义类别的算法。

声源定位精度不高，因此，需要对第一位置预设范围内进行唇语的识别，锁定语言唤醒信号的来源。具体的，视觉系统已经经过标定，可以根据世界坐标映射到图像坐标系，即在声源定位给定世界坐标中的第一位置之后，视觉系统能够确定拍摄到图像上与第一位置对应的第一像素点，假设预设范围为50个像素点，则以第一像素点为中心点，裁剪出四条边距离第一像素点均为50个像素点的正方向区域，即该区域的分辨率为101*101像素。后续将图像序列中的每一帧均以第一像素点为中心点裁剪成分辨率为101*101像素的图像序列，第一唇动算法仅对该分辨率为101*101像素的图像序列进行识别，从而减少唇语识别算法的图像处理数据量，提升唇语识别效率。

进一步的，如果采集到语音唤醒信号的时间段T1时刻至T2时刻，则也仅对T1时刻至T2时刻采集到的图像序列进行唇语识别，进一步降低图像处理数据量，提升唇语识别效率。

如图8所示，甲乙两个人均是唇动者，识别视频中的人是否为唇动者，具体可以采用如下方法：使用Dlib或OpenCV的人脸检测功能，识别出视频帧中的人脸，并进一步定位到嘴唇区域。对嘴唇区域应用光流法，计算连续帧之间的运动矢量。分析嘴唇区域的运动矢量，如果检测到连续帧之间的运动矢量超过预设阈值，就可以判断嘴唇动了，则认为存在唇动者，并且基于人脸识别将甲和乙标记为唇动者，后续可以持续跟踪甲和乙。

需要说明的是，二分类的唇语识别算法为将包含唇语的图像序列分类成两个预定义类别的算法，一个类别是包含语音唤醒信号对应的第一文本，另一个类别是不包含语音唤醒信号对应的第一文本。由于只需要进行二分类，因此相较于常规的能够识别各种唇语的唇语识别算法的复杂度低，参数更少，可以快速识别多个唇动者的唇语，从而加快了确定出交互者的速度。

步骤S208，将各不同唇动者的唇语对应的第二文本和语音唤醒信号对应的第一文本进行对比，将对比结果为相对应的唇动者确定为交互者。

例如识别出甲说了“你好小万”，即甲的唇语对应的第二文本为“你好小万”，乙说了“这个看起来挺有趣”，即乙的唇语对应的第二文本为“这个看起来挺有趣”，此时甲的唇语的第二文本与第一文本相对应，确定甲为交互者。

步骤S210，基于视觉系统实时跟踪定位交互者所在的第二位置，并基于所述第二位置实时调整麦克风阵列19的指向性，以使得所述麦克风阵列19波束响应的主瓣指向第二位置。

本示例中，视觉系统的定位不受环境噪声干扰，相较于声源定位具有更高精度。

步骤S212，对麦克风阵列19采集到的交互者的语音信号进行语言识别，以便实现语音交互。

相较于现有技术中在唤醒阶段也使用常规的能够识别各种唇语的唇语识别算法来帮助识别出多个唇动者中的交互者，而造成语音交互设备中集成的常规的能够识别各种唇语的唇语识别算法在提升识别准确率和从多人同时说话场景中确定出交互者的任务中，加快确定出交互者的速度二者在优化方向上存在矛盾的问题。本实施例中，在语音交互设备中集成两种唇语识别算法，分别是第一唇语识别算法和第二唇语识别算法，其中，第一唇语识别算法为二分类的唇语识别算法，仅用于唤醒阶段，缩短了处于唤醒阶段的时间，第二唇语识别算法为全类别唇语识别算法，仅用于交互阶段，所述唤醒阶段为确定说出唤醒词的对象并通过人脸识别技术绑定交互者的过程（即步骤S202至S208），所述交互阶段是在唤醒阶段之后，采集交互者的说话声音信号、将声音信号转换为文本并将文本输入到生成式人工智能程序以及通过语音播放的形式向交互者展示上述人工智能程序生成的答案的过程（即步骤S210至S212）。具体的，第一唇语识别算法与第二唇语识别算法的差异在于，第一唇语识别算法的输出只包括是或不是唤醒词两个类别，而第二唇语识别算法输出则是与输入的视频唇语对应的文本。即，将第二唇语识别算法定义为输入为唇动视频，输出为视频中唇语对应的文本的算法，将第一唇语识别算法定义为输入为唇动视频，输出位用于标记该视频中唇语是唤醒词或不是唤醒词的分类标签的算法。

通过将两种唇语识别算法集成在语音交互设备上并限定二者分别在不同阶段使用，能够允许通过增加第二唇语识别算法的复杂度来优化第二唇语识别算法的准确率，从而在交互阶段当噪声过大时，通过第二唇语识别算法来获取交互者说话时唇语所对应的文本，从而将该文本输入到生成式人工智能程序中，以排除噪声对交互过程拾音造成的干扰，即通过唇语识别进行语音输入的降噪。同时，由于第一唇语识别算法为复杂度更加低的二分类算法，能够在计算机性能不高的语音交互设备本地更快的进行唇语识别，加快结合唇语识别从多人同时说话场景中确定出交互者的速度。

概括地说，本申请的技术贡献在于将语音交互设备中集成的唇语识别算法按照唇语识别算法需要完成的任务进行分离，分离出分别在唤醒阶段和交互阶段使用的第一唇语识别算法和第二唇语识别算法，兼顾了提高唇语识别算法的准确性和加快识别交互者两个优化方向，消除了现有技术中两个优化方向存在的矛盾。

具体的，所述二分类的唇语识别算法包括基于模式匹配的二分类唇语识别算法或基于神经网络的二分类唇语识别模型；

针对基于模式匹配的二分类唇语识别算法，通过以下流程进行模板构建和对唇语进行二分类识别：

收集参考数据集，所述参考数据集为包含唤醒词对应唇动的图像序列；

提取特征，对参考数据集中的各图像序列进行预处理后提取唇动的关键特征；

构建模板，基于提取到的关键特征，构建特征模板；

匹配与唇语二分类识别，对于需要识别唇语的图像序列，先提取关键特征并将提取到的关键特征与已构建好的特征模板进行匹配，当匹配程度达到设定的阈值时，判断图像序列中唇动对应的文本是唤醒词；否则，判断图像序列中唇动对应的文本不是唤醒词；以实现唇语二分类识别。

针对基于神经网络的二分类唇语识别模型，通过以下流程进行模型训练和对唇语进行二分类识别：

收集两类训练数据形成训练数据集，每类训练数据均收集多组,第一类训练数据中的每组训练数据均包括包含说了唤醒词的唇动图像序列以及用于标记该图像序列的唇动说了唤醒词的标签，第二类训练数据中的每组训练数据均包括未包含说了唤醒词的唇动图像序列以及用于标记该图像序列的唇动未说唤醒词的标签；

训练神经网络模型，利用训练数据集中的两类训练数据对神经网络模型进行训练，直到模型损失函数的值符合预设的损失阈值；

利用训练好的模型进行唇语二分类识别，将需要识别唇语的图像序列作为训练好的神经网络模型的输入，得到模型输出的结果，所述模型输出的结果用于表示输入的图像序列中的唇动对应的文本是否为唤醒词，以实现唇语二分类识别。

可见，对于基于模式匹配的二分类唇语识别算法，其相较于全分类（即能够对各种唇语进行识别）的唇语识别算法而已，其模板数量更少，需要匹配的模板数量更少，因此识别的速度更快。对于基于神经网络的二分类唇语识别模型，由于二分类可以使用更加简答的网络结构并且模型参数更少，因此识别唇语的速度也更快。

如图2所示，在一些实施例中，所述方法还包括：

步骤S302，进入唤醒词更新模式；

步骤S304，在唤醒词更新模式下，从服务器下载新的唇语识别算法并利用新的唇语识别算法替换第一唇语识别算法；

步骤S306，替换完成后，在屏幕10上的唤醒词提示区显示与新的唇语识别算法对应的唤醒词文本；

步骤S308，退出唤醒词更新模式。

考虑到各场所使用语音交互设备存在个性化差异，因此设置的唤醒词均不相同，而由于第一唇语识别算法的输出结果只能标记输入的唇动视频的唇语是否为特定的唤醒词，无法像第二识别算法直接输出唇动视频的唇语对应的文本，因此不同的唤醒词需要专门构建或训练相应的第一唇语识别算法。只要提供足够的说了唤醒词的视频作为训练数据或参考数据，这些第一唇语识别算法的构建或训练比第二唇语识别算法训练过程更快速、简单。本实施例中允许各场所拥有语音交互设备的主体进入唤醒词更新模式自由更换唤醒词并发送给语音交互设备供应商的服务器，由语音交互设备供应商进行训练和构建对应的第一唇语识别算法并发送给对应的语音交互设备，由语音交互设备利用新的唇语识别算法替换第一唇语识别算法，并在屏幕10上的唤醒词提示区显示与新的唇语识别算法对应的唤醒词文本，以提醒交互者当前的唤醒词的内容。

如图3和图10所示，在一些实施例中，还包括通过以下流程步骤收集参考数据集或训练数据集中所包含的说了唤醒词的唇动图像序列：

步骤S402，响应于用户的互助触发操作，进入互助采集模式。

参照图10，屏幕10为触摸屏，屏幕10的交互界面右侧显示有操作区域15，操作区域15从上往下依次显示有参加挑战控件151、开始挑战控件152和结束挑战控件153。所述用户的互助触发操作为用户用手单击参加挑战控件151的操作，此时进入互助采集模式。

步骤S404，进入互助采集模式后，在屏幕10上显示用于拍摄的取景框11。

进入互助采集模式之后，屏幕10的交互界面中间区域从上往下依次为挑战评分展示区域13、唤醒词展示区域12、用于拍摄的取景框11。唤醒词展示区域12显示需要用户说出的话的文本内容，例如，文本内容为“请说出：你好小万”。取景框11中显示语音交互设备的相机16或摄像头拍摄到的画面。

步骤S406，检测到人脸位于取景框11内之后，将嘴唇所处区域作为第一区域112并在取景框11内除第一区域112外的区域生成不透明图层111。

通过人脸检测和嘴唇检测确定出取景框11内，嘴唇所在区域为第一区域112，例如，通过嘴唇检测算法的目标框确定第一区域112的边界，然后在取景框11内除第一区域112外的区域生成不透明图层111。

步骤S408，响应于用户的采集开始触发操作，开始录制取景框11内第一区域112的画面。

当交互者开始动嘴说出唤醒词展示区域12显示的文本对应的语音时，单击开始挑战控件152，所述用户的采集开始触发操作为用户用手单击开始挑战控件152的操作，接着语音交互设备开始录制取景框11内第一区域112的画面，具体可以使用录屏软件录制第一区域112的画面，得到图像序列。

另一个实施方式中，直接以第一区域112的边界作为边界进行裁剪，得到仅包含第一区域112的图像序列，并将其做为说了唤醒词的唇动图像序列。

步骤S410，响应于用户的采集结束触发操作，停止录制并将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列。

当交互者说完唤醒词展示区域12显示的文本对应的语音时，单击结束挑战控件153，所述用户的采集结束触发操作为用户用手单击结束挑战控件153的操作，此时停止录制视频或不再将单击结束挑战控件153之后的第一区域112画面裁剪成图像序列。

步骤S412，在得到说了唤醒词的唇动图像序列后，向用户发放积分；所述积分用于在布置有语音交互设备的场所中兑换商品或服务。

当得到说了唤醒词的唇动图像序列后，向用户发放积分，所述积分用于在布置有语音交互设备的场所中兑换商品或服务，以此鼓励更多人参与到唤醒词的唇语视频贡献中。其中在取景框11左侧的奖励发放区域14，用于显示积分对应的二维码，在得到说了唤醒词的唇动图像序列后才将二维码显示在奖励发放区域14。

本实施例中，由于录制的唇动图像序列仅包含嘴巴位置的信息，而不涉及人脸全部的信息，可以保护参与挑战者的意思。可以理解的是，在用户参与该调整之前，应该告知其录制的唇语视频将会被用于训练或构建第一唇语识别算法。通过发放积分的形式鼓励更多人参与到生成训练模型或构建算法所需的唇动图像序列（即唇语视频），提升了收集训练数据或参考数据的效率。同时在收集过程中，通过对嘴巴之外其他地方使用不透明图层111遮挡并仅采集嘴巴位置的图像序列，保护了参与者的隐私。

如图4所示，在一些实施例中，还包括：

步骤S502，将录制好的取景框11内第一区域112的画面视频输入到第二唇语识别算法中，得到录制好的取景框11内第一区域112的画面视频中唇动对应的第三文本。

步骤S504，将第三文本与麦克风阵列19同步采集到的语音信号对应的第四文本进行对比，只有在对比的结果为相对应时，才将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列；否则提示用户重新执行采集开始触发操作。

并且第三文本和第四文本都必须和唤醒词展示区域12显示的唤醒词一致，才将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列，否则提示用户重新执行采集开始触发操作。

可以理解的是，由于用户参与录制唤醒词对应的唇动视频时没有监督，可能存在某些用户不按照要求说出唤醒词对应的语音，因此，本实施例中通过了一种自动核对用户是否按照要求说出唤醒词对应的语音，即利用第二唇语识别算法来识别用户唇动对应的第三文本，并将第三文本与麦克风阵列19同步采集到的语音信号对应的第四文本进行对比，只有结果相对应才将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列；否则提示用户重新执行采集开始触发操作。所以，本实施例的方案可以保证无监督情况下各用户参与录制的用于作为训练数据的唇动视频的质量。

在一些实施例中，为了进一步提升用户参与录制唤醒词对应的唇动视频的质量，还通过了以下步骤：

将录制好的取景框11内第一区域112的画面视频输入到第二唇语识别算法；

获取第二唇语识别算法输出的唇语文本；

当所述唇语文本为唤醒词时，判断所述唇语文本的预测概率；

只有所述预测概率不小于预设预设概率，才将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列；否则提示用户重新执行采集开始触发操作。

如图10所示，将预设概率设置0.97，对应为97分，当概率为1时，挑战分数为100分。显然图10中，挑战平方展示区显示当前的挑战分数为98分，即预测概率为98。已知，唇语识别模型输出的都是概率最高文本序列，取的是相对值，即如果概率最高的文本序列对应的概率仅为0.6，那么模型输出会是0.6对应的文本序列，但是准确性显然很低。因此，本实施例中，设置了一个较高的预设概率，来保证预测的准确率，只有预测概率不小于预设预设概率，才将录制好的取景框11内第一区域112的画面视频做为说了唤醒词的唇动图像序列。通过该方案可以让参与挑战的用户唇动更加标准，提升训练数据的质量。

在一些实施例中，所述方法还包括：

在响应不同用户的互助触发操作，进入互助采集模式时，调整语言交互设备的拍摄角度以及光照环境存在差异。

如图10所示，相机16通过转轴18与屏幕10转动连接，能够拍摄用户的不同角度。另一方面，在相机16外壳上布置了多个LED照明灯17，用于营造不同的光照环境。通过调整语言交互设备的拍摄角度以及光照环境存在差异可以获得更多样性的训练数据，提升模型在各种环境下预测的准确性。

在一些实施例中，所述方法还包括：

统计上传到服务器的各主体帮助其他主体采集的说了唤醒词的唇动图像序列的数量，得到各主体的贡献分；各主体绑定多台语音交互设备；

基于所述贡献分获取对应的调度权限；所述调度权限为允许拥有贡献分的主体将自定义的唤醒词文本、自定义的二维码发送至被选中的目标语音交互设备并控制所述被选中的目标语音交互设备的唤醒词展示区域12显示自定义的唤醒词、在奖励发放区域14显示自定义的二维码。

本实施例中，允许各主体可以凭借贡献分有权限将自定义的唤醒词文本发送给其他主体的语音交互设备加快采集训练数据，并且允许各主体在奖励发放区域14显示自定义的二维码，向使用其他主体语音交互设备的用户提供更具有吸引力的奖励，加快采集训练数据。本实施例基于贡献分获得对其他语音交互设备互助采集模式的调度权限，而贡献分是由各主体提供的语音交互设备上传到服务器的说了唤醒词的唇动图像序列的数量确定的，保证了各主体之间互助采集训练数据的公平性。即A主体可以调度B主体的设备来帮助采集训练数据的依据是，A主体曾经帮助过其他主体采集过训练数据，该方案保证有付出就有回报，保证互助的公平性。并且允许其他主体的设备帮忙采集训练数据，加快了训练数据采集的速度以及样本的多样性。

另一方面，所述方法还包括：

基于视觉系统检测交互者的运动状态；

若交互者的运动状态为连续运动状态，切换至移动调整模式；处于所述移动调整模式下，通过以下公式一对应的波束成形响应函数，对麦克风阵列19的指向性进行调整；

公式一：

其中，i为虚数单位，e为自然常数，λ是声音信号的波长，N是线性麦克风阵列19的阵元数量，d是相邻阵元的间距，θ为声波入射的角度，为期望主瓣出现的角度。

如图9所示，图7中实线所示的波束响应的主瓣在θ=7.9793°。图9中还示出了Q1、Q2、Q3、Q4、Q5等五个声波入射方向对应的波束响应，其中，虚线所示的波束响应图像中，Q2为其波束主瓣对应的角度，即30°，此时波束响应为0dB；Q1示出了从角度为42.89°入射的声波对应的波束响应为-3dB；Q3示出了从角度为18.6297°入射的声波对应的波束响应为-3dB。当将波束响应的主瓣对应的角度设置7.9793°时，其波束响应图像为实线所示，Q4示出了从角度为7.9793°入射的声波对应的波束响应为0dB；Q5示出了从角度为-2.3953°入射的声波对应的波束响应为-3dB。Q3示出了从角度为18.6297°入射的声波对应的波束响应为-3dB，可见，当麦克风阵列19的指向性从波束主瓣指向30°（即图7和图9中的虚线所示的波束响应图像）调整到指向7.9793°（即图7和图9中的实线所示的波束响应图像）时，二者在-3dB处存在一个交点Q3。如图7所示，位置在极坐标极点（也是xoy平面的原点）与Q3点连线的延长线上。

如图11所示，处于持续运动状态的交互者在第一时刻处于位置，并在接下来的第二时刻移动到了/>位置，最终又在接下来的第三时刻移动到了/>位置。可以理解的是，应该在交互者位于/>位置的第二时刻将波束主瓣的指向调整为7.9793°，但是由于交互者位于/>位置时，视觉定位系统进行视觉数据采集、分析和计算会占用一定时间，假设视觉定位系统在第三时刻计算出交互者处于/>位置，因此，语音交互设备会在第三时刻调整波束主瓣的指向调整为7.9793°（即图9中实线所示的波束响应图像）。然而，交互者在第二时刻到第三时刻这段时间内，所处的位置使得交互者发出的声音信号的波束响应是低于-3dB的，如图11中的/>，此时交互者说话的声音由于衰减大于-3dB，会导致收音效果不好，即收音不连贯，影响语音交互的流畅性。可见，调整麦克风阵列19波束主瓣指向性的时间点对于收音的连贯性存在影响，即需要解决的技术问题是：当交互者处于连续运动状态的情况下，在什么时间节点调整麦克风阵列19主瓣的指向性可以提升收音的连贯性。另一方面，在确定调整麦克风阵列19主瓣的指向性时间节点的情况下，应该使得调整后的主瓣指向哪个角度从而保证收音的连贯性也是需要解决的技术问题。本申请实施例中将通过公式二和公式三对应的算法来解决上述两方面问题。

为了更加精确选择调整主瓣指向方向的时间点，对此，发明人通过公式二来解决。公式二的核心是，通过轨迹预测来预测交互者按照当前运动状态到达下一步落脚点的位置，如图7所示，如果该/>位置与/>的距离大于/>与/>的距离，说明下一步落脚点位于当前主瓣的-3dB响应范围之外，则采用公式二在交互者实际到达/>位置之前就计算出交互者到达/>位置的时间，从而能够在交互者到达/>位置的同时就切换主瓣的指向，克服了延迟问题，从而保证处于持续运动状态的交互者一直处于-3dB响应范围之内。其中-3dB响应范围是指使得声波的波束响应不低于-3dB的入射角度范围。显然，如果/>位置与/>的距离小于与/>的距离，说明下一步落脚点位于当前主瓣的-3dB响应范围之内，则不需要调整主瓣的指向。

在一个实施例中，处于所述移动调整模式下，通过以下公式二计算出需要调整麦克风阵列19波束主瓣指向性的时刻：

公式二：

其中，在连续运动状态下，交互者在时刻移动到达坐标为/>的位置并且此时速度为/>，/>为对/>时刻的交互者实际运动轨迹进行轨迹预测得到的预测轨迹上的下一步落脚点的坐标，/>为整数，/>为/>时刻使用的麦克风阵列19的波束成形响应函数的反函数在/>=-3时的值，θ为声波的入射角度。

其中，=/>，/>=/>，如图7所示，交互者在/>时刻移动到达/>=/>，此时速度为/>，根据轨迹预测得到其下一步落脚点为/>=/>，由于/>位置与/>的距离大于与/>的距离，说明下一步落脚点位于当前主瓣的-3dB响应范围之外，则采用公式二计算需要调整麦克风阵列19波束主瓣指向性的时刻/>。如图9，/>时刻使用的麦克风阵列19的波束成形响应函数/>的主瓣指向30°方向，此时，如图9所示，/>=18.6297°或42.89°。可以理解的是，由于交互者从/>移动向/>，是在图9所示的xoy平面上顺时针移动，此时入射角度随着交互者移动在减小，所以/>取2个解中的最小值，即/>=18.6297°。如果交互者在逆时针移动，则求解之后，/>取2个解中的最大值。

可以通过视觉系统实时监测到的数据进行计算，例如交互者在t4时刻位于第一轨迹点C1=(x1’,y1’)处，在t4时刻的上一个时间点t3时刻位于第零号轨迹点C0=(x0’,y0’)，C1和C0之间距离为S0，则交互者位于/>时的运动速度=S0/(t4-t3)米每秒。将当前时刻的实际运动轨迹输入到预先训练好的轨迹预测模型中，会输出下一步落脚点的预测坐标。具体的，收集大量用户行走的轨迹，每条轨迹均有10个落脚点坐标组成，每组训练数据中均包含每条轨迹中的前9个落脚点坐标并以第10个落脚点作为标签，对模型进行训练，即可得到本实施例中的轨迹预测模型，能够输出下一步落脚点的预测坐标。

进一步的，处于所述移动调整模式下，通过以下公式三计算出每次在时刻，需要令调整后新的波束主瓣出现的角度/>：

公式三：/>

其中，为函数/>的反函数在/>=-3时的值，/>为麦克风阵列19的波束成形响应函数/>变换得到，变换过程为令/>中的/>做为常量，将中的/>做为变量，得到/>。

如图9所示，虚线示出了的波束响应图像，其主瓣指向30°，/>=18.6297，得到/>，如图9所示，=30°或7.9793°。可以理解的是，由于交互者从/>移动向/>，是在图9所示的xoy平面上顺时针移动，此时主瓣指向的角度随着交互者移动在减小，所以/>取2个解中的最小值，即/>=7.9793°，从而将/>=7.9793°带入到波束成形函数公式一，得到/>时刻麦克风阵列19的波束成形函数为/>。如果交互者在逆时针移动，则求解之后，/>取2个解中的最大值。

如图7所示，在时刻交互者移动到/>位置，即位于-3dB响应范围的边界，因为为了保证交互者再继续移动也仍然在-3dB响应范围内，就需要通过公式三在/>时刻将麦克风阵列19的波束主瓣调整到7.9793°方向，从而保证交互者一直处于-3dB响应范围内，保证收音的连贯性。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于唇动语言识别的降噪处理方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，其特征在于，所述方法包括：

持续通过视觉系统和麦克风阵列共同采集音视频数据；

2.根据权利要求1所述的一种基于唇动语言识别的降噪处理方法，其特征在于，所述二分类的唇语识别算法包括基于模式匹配的二分类唇语识别算法或基于神经网络的二分类唇语识别模型；

构建模板，基于提取到的关键特征，构建特征模板；

匹配与唇语二分类识别，对于需要识别唇语的图像序列，先提取关键特征并将提取到的关键特征与已构建好的特征模板进行匹配，当匹配程度达到设定的阈值时，判断图像序列中唇动对应的文本是唤醒词；否则，判断图像序列中唇动对应的文本不是唤醒词；以实现唇语二分类识别；

3.根据权利要求1所述的一种基于唇动语言识别的降噪处理方法，其特征在于，所述方法还包括：

进入唤醒词更新模式；

在唤醒词更新模式下，从服务器下载新的唇语识别算法并利用新的唇语识别算法替换第一唇语识别算法；

替换完成后，在屏幕上的唤醒词提示区显示与新的唇语识别算法对应的唤醒词文本；

退出唤醒词更新模式。

4.根据权利要求3所述的一种基于唇动语言识别的降噪处理方法，其特征在于，还包括通过以下流程步骤收集参考数据集或训练数据集中所包含的说了唤醒词的唇动图像序列：

响应于用户的互助触发操作，进入互助采集模式；

进入互助采集模式后，在屏幕上显示用于拍摄的取景框；

检测到人脸位于取景框内之后，将嘴唇所处区域作为第一区域并在取景框内除第一区域外的区域生成不透明图层；

响应于用户的采集开始触发操作，开始录制取景框内第一区域的画面；

响应于用户的采集结束触发操作，停止录制并将录制好的取景框内第一区域的画面视频做为说了唤醒词的唇动图像序列；

在得到说了唤醒词的唇动图像序列后，向用户发放积分；所述积分用于在布置有语音交互设备的场所中兑换商品或服务。

5.根据权利要求4所述的一种基于唇动语言识别的降噪处理方法，其特征在于，还包括：

将录制好的取景框内第一区域的画面视频输入到第二唇语识别算法中，得到录制好的取景框内第一区域的画面视频中唇动对应的第三文本；

将第三文本与麦克风阵列同步采集到的语音信号对应的第四文本进行对比，只有在对比的结果为相对应时，才将录制好的取景框内第一区域的画面视频做为说了唤醒词的唇动图像序列；否则提示用户重新执行采集开始触发操作。

6.根据权利要求4所述的一种基于唇动语言识别的降噪处理方法，其特征在于，所述方法还包括：

在响应不同用户的互助触发操作，进入互助采集模式时，调整语言交互设备的拍摄角度以及使得光照环境存在差异。

7.根据权利要求1所述的一种基于唇动语言识别的降噪处理方法，其特征在于，所述方法还包括：

基于视觉系统检测交互者的运动状态；

若交互者的运动状态为连续运动状态，切换至移动调整模式；处于所述移动调整模式下，通过以下公式一对应的波束成形响应函数，对麦克风阵列的指向性进行调整；

公式一：

其中，i为虚数单位，e为自然常数，λ是声音信号的波长，N是线性麦克风阵列的阵元数量，d是相邻阵元的间距，θ为声波入射的角度，为期望主瓣出现的角度。

8.根据权利要求7所述的一种基于唇动语言识别的降噪处理方法，其特征在于，处于所述移动调整模式下，通过以下公式二计算出需要调整麦克风阵列波束主瓣指向性的时刻：公式二：

其中，在连续运动状态下，交互者在时刻移动到达坐标为/>的位置并且此时速度为/>，/>为对/>时刻的交互者实际运动轨迹进行轨迹预测得到的预测轨迹上的下一步落脚点的坐标，/>为整数，/>为/>时刻使用的麦克风阵列的波束成形响应函数的反函数在/>=-3时的值，θ为声波的入射角度。

9.根据权利要求8所述的一种基于唇动语言识别的降噪处理方法，其特征在于，处于所述移动调整模式下，通过以下公式三计算出每次在时刻，需要令调整后新的波束主瓣出现的角度/>：

公式三：

其中，为函数/>的反函数在/>=-3时的值，/>为麦克风阵列的波束成形响应函数/>变换得到，变换过程为令/>中的/>做为常量，将中的/>做为变量，得到/>。

10.一种基于唇动语言识别的降噪处理装置，其特征在于，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1至9中任意一项所述方法的步骤。