CN118072744A

CN118072744A - 基于声纹的语言识别方法及装置

Info

Publication number: CN118072744A
Application number: CN202410465527.5A
Authority: CN
Inventors: 范晓梅; 李艳霞; 李鹏举
Original assignee: Shenzhen Wanping Times Technology Co ltd
Current assignee: Shenzhen Wanping Times Technology Co ltd
Priority date: 2024-04-18
Filing date: 2024-04-18
Publication date: 2024-05-24
Anticipated expiration: 2044-04-18
Also published as: CN118072744B

Abstract

本发明公开了一种基于声纹的语言识别方法及装置，利用视觉系统获取第一视觉数据；所述第一视觉数据为包括基于位于第一位置的对象反射的光线所形成的视觉数据；检测到第一视觉数据中包含多个不同人类的人体信息时，选择已经与所述语音唤醒信号的声纹绑定的人体信息作为目标人体信息，并将所述目标人体信息对应的人类作为交互者；利用视觉系统实时监测所述交互者的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置。该方法能够准确快速地识别出交互者并实时监测到交互者的位置，从而保证能够准确判断调整麦克风阵列指向性的时机，进而保证拾音的连贯。

Description

基于声纹的语言识别方法及装置

技术领域

本发明涉及语音交互技术领域，特别涉及一种基于声纹的语言识别方法及装置。

背景技术

语音交互设备可以被广义地理解为集成了siri的手机，集成了小爱同学的智能音箱，或集成了语音对话模块的行走机器人，其正在被人们广泛使用于家庭生活、教育、娱乐中。随着自然语言处理技术的成熟，例如以chatGPT为代表的生成式人工智能程序可以被部署在语音交互设备中，当通过麦克风采集到交互者语音之后，基于chatGPT进行一轮或多轮的对话，甚至未来还可以实现由多人共同参与的以娱乐或教育为目的的语音互动。

在语音交互设备中，为了获得更好的拾音效果，一般在硬件上使用麦克风阵列并配合波束形成的软件算法，实现定向拾音。其原理为：麦克风阵列中每个麦克风的位置不同，因此接收到语音信号的时间不同，选定一个麦克风作为参考麦克风，计算出目标声源到达参考麦克风的时间，然后计算其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，进行时间补偿以使各通道的语音信号同步，将各通道的信号相加，可以使目标方向的信号同相叠加得到增强，等效于阵列波束图的主瓣对准目标方向，其它方向相比于主瓣方向均有不同程度的削弱。从而实现对指定方向的语音信号进行增强，对其他方向的语音信号进行削弱，这就是麦克风阵列拾音的指向性。通过调整其他通道（即麦克风阵列阵元）相对于此参考麦克风的时延，可以调整麦克风阵列的指向性。

在某些应用场景中，考虑到交互者在使用交互系统过程中，存在移动位置的需求，此时交互者相对于语音交互设备的位置是变化的，所以需要提供能够响应于交互者位置变化而调整麦克风阵列指向性的方案，以期达到更好的拾音效果。如专利文献1中，只有在预设时间段内声音获取元件未采集到语音信号时，才会在预设的角度范围内调整声音获取元件的指向性。例如当交互者行移到波束图旁瓣指向的区域时，如果交互者在该区域说话，则从该区域传播到麦克风阵列的声音信号被衰减了40dB，会由于声音信号能量过低无法被声源获取元件感应到，从而导致声音获取元件未采集到语音信号，此时才会触发调整声音获取元件的指向性。其调整麦克风指向的策略，具体为，麦克风阵列x秒(x为正数)的时间没有录到声音时，重新运行声源定位再次定位，然后根据声源定位的结果调整麦克风指向。

发明人发现，专利文献1的方案存在拾音不连贯的问题。发明人经过研究发现其原因主要包括两点，第一是，专利文献1中对于调整指向性时机的判断存在不足（即无法及时调整麦克风阵列的指向性），例如，预设时间段为3秒钟，则如果这3秒钟交互者在波束图旁瓣指向的区域说了话，而这些话未被声音获取元件采集到，只有重新调整指向性之后，将主瓣指向交互者当前区域后才会重新采集到清楚的语音信号，所以专利文献1中调整麦克风阵列指向性的方案存在拾音不连贯问题。第二是，专利文献1中基于声源进行定位，而声源定位容易受到空间回音、其他人声音等噪声的干扰，导致声源定位精度不够高，某些情况下存在通过声源定位计算出交互者在主瓣指向的区域时，实际情况交互者在旁瓣指向的区域内，此时导致声音获取元件采集不到语音信号的情况，并且只有在经过预设时间段(例如3秒）之后，才会重新触发麦克风阵列调整指向性，导致这3秒钟的声源无法被采集，此时也会造成专利文献1中在进行麦克风阵列指向性调整的操作时，存在拾音不连贯的问题。另外，由于声源定位不准确，因此，调整麦克风阵列指向性的准确性也受到影响，例如，调整后的麦克风阵列的主瓣无法准确指向交互者所在区域。将专利文献1作为调整麦克风阵列指向性的第一代产品。

经过检索，发现专利文献2提供的麦克风阵列指向性调整方案中，通过2个麦克风阵列形成二维的声源定位结果，具体为，其中的一个麦克风阵列被设置为与摄像机同步旋转的结构。该方案具有多个效果，例如，通过二维声源定位可以具有更高的声源定位精度，从而在调整麦克风阵列指向性上具有更准确的效果。另外的，该同步旋转的结构解决了从一维声源定位系统改造为二维声源定位系统过程中，由于需要增加麦克风阵列而造成的开发成本增加、算法开发难度大的问题，并消除了摄像机旋转时对该麦克风阵列的干扰等。可见，专利文献2对专利文献1中的部分不足作出了改进，可以认为是调整麦克风阵列指向性的第二代产品。

然而，发明人发现，专利文献2提供的方案仍然无法解决第一代产品中的拾音不连贯问题，虽然阵列文献2中的产品与本申请的语音交互设备，在产品硬件结构上具有类似的部分（例如摄像头、麦克风阵列），但是其通过增加麦克风阵列（即需要使用2个麦克风阵列）达到二维声源定位效果，在增加硬件成本基础上，也仍然无法解决拾音不连贯的问题。因此，经过检索，并未发现现有技术中存在解决进整麦克风阵列指向性调整操作时存在的拾音不连贯问题的方案，也并未从现有技术中得到解决该问题的技术启示。基于此，有必要对现有技术中在进行麦克风阵列指向性调整的操作时，出现的拾音不连贯问题提供一种解决方案。另一方面，发明人发现，为了准确判断调整麦克风阵列指向性的时机，需要实时监测交互者的位置，然而，在交互者与语音交互设备的互动过程中，不可避免有其他人与交互者在同一场地中活动，这可能带来干扰。如何在交互者使用语音交互设备过程中，排除在同一场所中其他人的活动给调整麦克风阵列指向性的操作所带来的干扰，也是亟需解决的问题。

专利文献1，公开号，CN106162427A，专利名称，一种声音获取元件的指向性调整方法和装置，公开日，2016-11-23。

专利文献2，公开号，CN113099160A，专利名称，基于麦克风阵列的视频会议方法、系统、设备及存储介质，公开日，2021-07-09。

发明内容

本发明的目的在于提供一种基于声纹的语言识别方法及装置，能够在多人活动的环境中，排除其他人的活动对实时监测交互者位置所带来的干扰，以准确快速地识别出交互者并实时监测到交互者的位置，从而保证能够准确判断调整麦克风阵列指向性的时机，进而保证拾音的连贯。

第一方面，提供一种基于声纹的语言识别方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，所述方法包括：

检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置；

利用视觉系统获取第一视觉数据；所述第一视觉数据为包括基于位于第一位置的对象反射的光线所形成的视觉数据；

检测到第一视觉数据中包含多个不同人类的人体信息时，选择已经与所述语音唤醒信号的声纹绑定的人体信息作为目标人体信息，并将所述目标人体信息对应的人类作为交互者；

利用视觉系统实时监测所述交互者的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置；

对麦克风阵列采集到的语音信号进行语言识别，以便实现语音交互。

另一方面，本发明提供了一种基于声纹的语言识别装置，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述方法的步骤。

有益效果：

1、相较于现有技术中采用基于麦克风阵列的声源定位，视觉系统定位更加准确，因此无需增加麦克风阵列硬件成本来提升对声源定位的精度，通过视觉系统定位就可以达到更高的定位精度，例如厘米级别的定位精度，节省了硬件成本。

2、在多人环境中，并且其他人与交互者位置很接近时，由于二者距离很接近并且声源定位精度不高的原因，第一位置可能并不能准确反映出交互者声源的位置，存在交互者和其他人可能同时位于第一位置的情况。因此，通过视觉数据（例如照片）对第一位置进行识别时，可能会同时识别到两个人（即交互者与其他人），此时通过视觉定位出交互者存在困难。而本申请中，通过声纹绑定识别交互者的人体信息，例如人脸，可以在声源定位出的第一位置不准确的情况下，从多个与交互者位置很接近的人类中准确并快速地识别出交互者并通过基于视觉数据的视觉定位技术准确定位出交互者位置。

3、相较于现有技术中，在经过一段时间未采集到交互者声音后，例如2秒未采集到声音时，才能判断出需要调整麦克风阵列的指向性，而交互者这2秒内说的话可能就会被遗漏，导致拾音不连贯，该现象称之为调整的时机判断不准确（即无法做到及时调整麦克风阵列的指向性）。本申请中，视觉定位实时性强，一旦交互者发生移动就可以被快速识别出来，从而及时调整麦克风阵列的指向性，即可以准确判断调整麦克风阵列指向性的时机，保证拾音连贯。

4、绑定声纹之后，开启下一轮对话（将交互者提问一次以及语音交互设备作出相应的一次回答定义为一轮对话）就无需重新说出语音唤醒词（即无需像现有技术中的siri或小爱同学一样，每一轮对话都需要说一次语音唤醒词），而是仅仅通过验证采集到的语音信号的声纹为当前交互者所绑定的声纹，就可以直接进行回应，实现了高效的多轮对话功能。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1为一个实施例中麦克风阵列部署空间关系示意图。

图2为图1中俯视视图。

图3为一个实施例中主瓣指向30°时的波束图。

图4为一个实施例中基于声纹的语言识别方法的流程示意图。

图5为一个实施例中交互者在不同位置说话时的声波与麦克风阵列形成的不同入射角度的示意图。

图6为一个实施例中时延为零时的波束图。

图7(a)为一个实施例中主瓣指向15°时的波束图。

图7(b)为一个实施例中主瓣指向25°时的波束图。

图7(c)为一个实施例中主瓣指向35°时的波束图。

图8为一个实施例中交互者靠近相机视野边缘时的图像示意图。

图9为一个实施例中交互者位于相机视野中心时的图像示意图。

图10为图5中的甲和乙两个被相机同时拍摄出现在一幅图像中的示意图。

具体实施方式

参照图1，图1示出了语音交互设备上的麦克风阵列所处的世界空间坐标系，该示例中的麦克风阵列由7个等间距线性排列在y轴上的阵元构成。阵元之间间距为d，麦克风阵列总长度为L。在该三维坐标系中，定义空间球面角为，其中θ与φ分别是Ω的水平方位角和垂直俯仰角。从某个视角去观察该三维坐标系，看到的是一个平面。图2为xoy平面，是从图1所示的三维坐标系的z轴正方向向下俯视看到的结果。对xoy平面进行观察，此时φ=90°，声波从水平面xoy的360°范围入射到麦克风阵列，θ取值为[-180°，180°]，由于线性阵列沿y轴布置，所以波束响应沿y轴镜像对称。声音频率为2000Hz，d=6cm，阵元的数量N=7，指定波束响应的主瓣指向θ=30°，得到的波束图如图3所示，沿y轴镜像对称，图中除了在θ=30°的主瓣，还有沿y轴镜像对称得到在θ=150°的主瓣。图3中虚线圆形为-3dB线，图3中，具体的，由于此时麦克风阵列的多个阵元沿y轴布置，因此θ取值为0°对应的极轴与正x轴对应，θ取值为180°对应的极轴与负x轴对应，θ取值为90°对应的极轴与正y轴对应，θ取值为-90°对应的极轴与负y轴对应。而在其他的场景中，如果麦克风阵列沿着z轴在xoy平面发生了转动，即线性阵列不再沿着y轴布置时，则可以将波束成形的特性描述为：波束响应沿极坐标的正或负90°方向对应的极轴呈镜像对称，即沿着麦克风阵列的多个阵元所排列成的直线呈镜像对称。

以下结合附图和实施例介绍本申请对于现有技术作出的技术贡献。

如图4所示，本实施例提供了一种基于声纹的语言识别方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，所述方法包括：

步骤S102，检测到语音唤醒信号时，基于声源定位算法确定所述语音唤醒信号的声源所在的第一位置。

语音唤醒信号可以是“小万同学”，例如，交互者在世界空间坐标系的实际位置为第一坐标点Q1（x’1,y’1,z’1）说出“小万同学”,而语音交互设备通过声源定位算法识别到声源的坐标为Q2（x’2,y’2,z’2），称Q2为第一位置，可见与实际位置存在一定的偏差。

步骤S104，利用视觉系统获取第一视觉数据；所述第一视觉数据为包括基于位于第一位置的对象反射的光线所形成的视觉数据。

本示例中视觉系统为双目相机，第一视觉数据为双目相机拍摄到的图像，位于第一位置的对象就是交互者，即第一位置在双目相机的视野范围内，通过双目相机拍摄的图像必然包括第一位置上的人的信息。如果视觉系统是激光扫描仪，则第一视觉数据就是激光扫描得到的点云数据。激光扫描仪的扫描范围覆盖第一位置时，也可以扫描得到第一位置上的交互者。具体的，在拍照或扫描点云数据之后，根据拍照得到的图像或扫描得到的点云数据与世界空间坐标系进行转换，判断得到的图像或点云数据中是否包含第一位置对应的坐标，如果没有则需要调整相机或激光扫描仪的角度，直到让照片或点云数据包含第一位置对应的坐标位置为止。

步骤S106，检测到第一视觉数据中包含多个不同人类的人体信息时，选择已经与所述语音唤醒信号的声纹绑定的人体信息作为目标人体信息，并将所述目标人体信息对应的人类作为交互者。

本示例中，人体信息为人脸，如果在一张照片中通过人脸识别算法识别到多张人脸时，就需要确定语音唤醒信号到达是哪个人发出的，即到底是哪个人想要与语音交互设备进行交互，确定出交互者后就需要调整麦克风阵列的指向性，使得该交互者处于波束主瓣指向的位置，用以提升交互过程中的拾音小姑。

本示例中，由于交互者是老用户，因此其人脸已经与自己的声纹进行了绑定，从而可以快速准确地从多个人中确定出交互者。

步骤S108，利用视觉系统实时监测所述交互者的第二位置，并基于所述第二位置实时调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向第二位置。

当确定交互者的人体信息转换，例如确定交互者的人脸后，便可以通过双目相机实时的视觉定位方式实时监控交互者的坐标Q3，显然视觉定位相较于声源定位具有更高的精度。声源定位是利用声音传播到各阵元的时间差来计算坐标，在麦克风阵元数量较少时，精度不高。

并且由于相机视野范围大，可以在不需要频繁转动相机的情况下对交互者进行长时间和大范围的实时监测。

由于第二位置比第一位置更加准确，所以基于第二位置调整麦克风阵列指向性可以使得麦克风阵列的波束响应主瓣更准确指向交互者，达到更好的拾音效果。

步骤S110，对麦克风阵列采集到的语音信号进行语言识别，以便实现语音交互。

有益效果：

如图2所示，所述麦克风阵列为线性阵列，所述麦克风阵列能够转动以调整麦克风阵列的法向量的朝向，所述法向量为经过线性麦克风阵列的中心点（也是世界空间坐标系的原点）并与线性阵列各阵元排列的方向垂直的矢量（即x轴正方向就是麦克风阵列的法向量），利用第一波束成形算法处理麦克风阵列各阵元采集到的声音信号；第一波束成形算法为延时为零的波束成形算法；

所述基于所述第二位置实时调整麦克风阵列的指向性，具体包括：

检测到第二位置发生更新时，控制所述麦克风阵列转动，使得所述麦克风阵列的法向量指向更新后的第二位置，以调整麦克风阵列的指向性，以使得所述麦克风阵列波束响应的主瓣指向更新后的第二位置。

如图5所示，从世界空间坐标系俯视，能够看到甲乙两个人的头顶。将声波的入射方向定义为声波传播到麦克风阵列中心点时的切线与麦克风阵列法向量的夹角（即图5中甲声波的入射方向，称之为θ°入射）。乙的声波为零度方向入射，零度方向入射，即该声波位于麦克风阵列的法向量所指的方向上，即声源与麦克风阵列中心点连线构成的线段与麦克风阵列的法向量重叠，我们称该现象为麦克风阵列的法向量朝向声源，也叫做麦克风阵阵列正对着声源（即图5中所示的乙的情况）。

本实施例中，采用延时为零的第一波束成形算法来对麦克风阵列各阵元采集到声音信号进行处理，即在将各阵元采集的声音信号进行加权叠加时，各阵元对应的权值为零。具体的，由于从零度方向入射的声波会同一时刻到达麦克风阵列的各阵元，相位差为零，因此，从零度方向入射的声波对应的声音信号叠加时达到完全增强的效果。而从其他方向来的声波，由于到达各阵元存在一定相位差，因此，叠加时会有抵消作用，声音信号的强度会比零度方向小。具体的，选择麦克风阵元数量为7，各阵元间距均为6cm，对于声音频率为2000Hz的声音信号利用第一波束成形算法进行处理，所得到的波束图如图6所示，可以看到在零延时的波束成形算法中，麦克风阵列波束响应的主瓣指向零度方向，即位于零度方向的交互者发出的声音信号得到增强，而其他方向的噪声信号会被抑制，得到很好的降噪效果。可知，在零延时情况下，只需要控制麦克风阵列转动并使得麦克风阵列正对着交互者，就可以对交互者发出的语音信号实现良好的拾音降噪效果。由于延时为零，即权值为零，因此对声音信号运行第一波束成形算法时，运算量减少，从而提高对声音信号的数据处理效率。

需要说明的是，考虑到转动麦克风阵列需要消耗的时间会比运行波束成形算法更多，因此为了提高调整麦克风阵列指向性的速度，需要划分不同的语音交互场景进行决策。场景1，交互者移动的频率不高，即交互者虽然有移动，但是在一个位置停留的时间较长，例如平均停留30秒以上。场景2，交互者移动的频率比较高，例如交互者在持续的移动，在一个位置停留的平均时长不超过3秒。对于场景1，适合使用第一波束成形算法，例如电机驱动麦克风阵列从一个位置转动到更新后的位置需要3秒，然而交互者在每个位置停留平均30秒以上，这就意味着采用第一波束成形算法至少在交互的90%时间内都可以减少运算量，并提高对声音信号的数据处理效率。对于场景2，显然不适用第一波束成形算法配合转动麦克风阵列的方案，因为交互者在更新后位置A平均停留时长（3秒）差不多等于麦克风阵列从上一个位置B转动到麦克风阵列的法向量指向该更新后的位置A所需的时长（3秒），这就意味着采用第一波束成形算法配合转动麦克风阵列的方案不足以让交互者处于麦克风阵列法向量（即波束的主瓣）指向的位置停留足够长的时间，此时第一波束成形算法配合转动麦克风阵列的方案所带来的减少运算量和提高数据处理效率所节省的时间成本优势不足以弥补麦克风阵列转动消耗的时间成本劣势。所以场景2适用采用具有时延（即权值不为零）的波束成形算法，具有时延的波束成形算法不需要转动麦克风阵列而是通过调整各阵元的权值就可以调整麦克风阵列主瓣指向位于不同位置的交互者。即场景2适合采用仅依靠软件算法来实现调整麦克风阵列的指向性的方案。

在一个实施例中，所述方还包括：

步骤S202，基于视觉系统获取的包含交互者的视觉数据，检测交互者的运动状态。

步骤S204，若交互者的运动状态为非连续运动状态，切换至静态调整模式；处于所述静态调整模式下，基于时延为零的第一波束成形算法并且配合转动麦克风阵列的策略，对麦克风阵列的指向性进行调整。

步骤S206，若交互者的运动状态为连续运动状态，切换至移动调整模式；处于所述移动调整模式下，基于时延不为零的波束成形算法并且配合无需转动麦克风阵列的策略，对麦克风阵列的指向性进行调整。

如图7，示出了通过改变各阵元的权值，即改变时延来实现无需转动麦克风情况下调整麦克风阵列的指向性。其中，图7(a)、7(b)、7(c)，分别示出了调整麦克风阵列的主瓣指向15°、25°、35°的波束图。

具体的，检测交互者的运动状态，可以通过对摄像头拍摄到的一段连续的图像帧中交互者的行为进行识别来实现。在一个示例中，通过视觉定位系统追踪60秒内交互者的位置变化，如果检测到交互者的位置在以1米/秒的速度持续变化了60秒，可以判断用户的运动状态为连续运动状态，可能是交互者在室内做散步运动。或者，通过视觉定位系统追踪180秒内交互者的位置变化，如果检测到交互者在5个位置都持续30秒以上保持不动，可以判断用户的运动状态为非连续运动状态，可能是交互者在室内各处擦拭家具。

当然，为了更精细判断用户是处于连续运动状态还是非连续运动状态，还可以训练对应的神经网络模型来实现。训练数据是大量的视频片段，每个视频片段中都包含一件人类在室内进行运动时的动作画面，由人工为每段视频赋予2类标签，一类标签用于指示该视频片段中的人类进行运动的状态为非连续运动状态，另一类标签用于指示该视频片段中的人脸进行运动的状态为连续运动状态。需要说明的是，这里视频中的在室内进行的运动是收集用户在使用语音交互时可能涉及的室内运动，例如室内散步、室内擦拭家具等。根据上述训练数据以及标签对神经网络模型进行训练得到目标神经网络模型，将语音交互设备拍摄到的一段视频帧输入该目标神经网络模型时，该目标神经网络模型就会输出交互者的运动状态，即可以通过该目标神经网络模型来检测交互者的运动状态。

当然还可以增加一类运动状态，即静止状态，例如，交互者在连续100秒不动时，判断交互者的运动状态为静止状态，此时静止状态与非连续运动状态一样，也切换至静态调整模式。需要说明的是，在刚刚启动语音交互设备时，默认采用移动调整模式，只有检测过交互者的运动状态后才进行调整模式的切换。并且还需要间隔一定时长（例如3分钟）执行一次检测交互者的运动状态，每当执行完检测交互者的运动状态，就触发调整模式的切换。

本申请中，波束响应的主瓣指向的方向为主瓣的瓣尖与波束图中极坐标中心连线后指向的方向，而根据波束图与麦克风阵列在空间坐标系中的关系，可知，麦克风阵列的中心就是空间坐标系的原点，所以在得到波束图的观察视角下，麦克风阵列所处的空间坐标系的原点与波束图极坐标的极点二者重合。

若仅靠转动麦克风阵列，来调整麦克风阵列的指向性，则存在麦克风阵列跟不上交互者速度的情况，此时会导致交互者偏离麦克风阵列的波束响应的主瓣指向的方向。这可能造成交互者说的语音信号无法被麦克风阵列清楚采集的问题，即存在拾音不连贯问题。

对此，本实施例提供了一种解决方案：其构思为，根据交互者的移动轨迹以及交互者的移动的速度，预测出交互者下一时刻将要到达的位置，控制麦克风阵列按照相应的速度转动，使得麦克风阵列波束响应主瓣指向的方向一直对齐交互者。

在一个示例中，所述方法还包括：按照以下流程，控制每个周期麦克风阵列转动的角速度大小：

步骤S302，在每个周期的起始时刻，对当前时刻的实际运动轨迹进行轨迹预测，得到预测轨迹；

步骤S304，从预测轨迹上获取与当前时刻交互者所在的第一轨迹点距离为预设距离的第二轨迹点；

步骤S306，以麦克风阵列中心点、第一轨迹点和第二轨迹点三个点为顶点构造第一三角形；

步骤S308，以麦克风阵列中心点对应的角作为第一目标角，基于所述第一三角形求出所述第一目标角的角度；

步骤S310，基于以下公式确定当前周期麦克风阵列转动的角速度大小：

其中，α是第一目标角的角度，是交互者位于第一轨迹点时的运动速度，/>是所述预设距离。

举例而言，每个周期为0.5秒，一般为该交互者行走一步所消耗的时长。当然，为了给不同交互者设置与其行走一步所消耗时长匹配的周期，可以通过统计不同交互者的行走轨迹来获取对应的个性化数据，即为不同交互者设置与其行走一步所消耗时长匹配的周期。具体的，同时视频中连续多帧图像，交替统计用户单只脚从离地到落地所经历的时长，例如左脚抬起到落地消耗0.5秒，统计一段视频中的50组数据，可以得到用户行走一步所消耗的时长的平均值，将其作为该用户的周期。另外一个实施例中，基于用户的速度对行走一步所消耗的时长进行统计，例如统计到用户在当前位置的步行速度为1米每秒时，其一只脚从抬起到下一刻落地消耗0.5秒；统计到用户在当前位置的步行速度为0.5米每秒时，一只脚从抬起到下一刻落地消耗1秒。

将当前时刻的实际运动轨迹输入到预先训练好的轨迹预测模型中，会输出预测轨迹。具体的，如何训练运动物体的轨迹预测模型属于现有技术，此处不再赘述。预设距离根据交互者的步长决定，为交互者在当前移动状态下跨出一步的距离，例如，成人跨出一步的距离取0.6米，具体的数据可以通过提前在产品测试阶段对各身高人群进行实验测定得到，然后制成映射表，语音交互设备通过视觉系统提供的定位功能计算出当前交互者的身高，然后匹配映射表得到与该交互者身高对应的步长，将其作为该交互者对应的预设距离。因此，第二轨迹点为预测交互者下一步落脚的位置。

可以理解的是，由于第二轨迹点为预测到的交互者下一步落脚的位置，而用户从当期所处的第一轨迹点到预测出的下一步落脚点所在的第二轨迹点的过程必然就是用户移动的过程，根据上述公式提供的参数可以反映出用户在两个落脚点之间的移动速度以及耗费的时间（即/>//>的比值），因此基于此计算得到角速度可以很好反映出交互者从第一轨迹点移动到第二轨迹点时绕麦克风阵列中心点的角速度。因此，将其作为控制麦克风阵列转动时的角速度，就可以使得麦克风阵列的波束响应主瓣可以在交互者从第一轨迹点运动到轨迹点的过程中实时对齐交互者的位置，从而具有更好的拾音连贯性。角速度定义是单位时间内转动角度的增量，即转动角度的增量与消耗时长的比值，但是对于本申请中非匀速运动而言，仅求出角速度的平均值意义不大，因为本申请需要麦克风阵列的法向量可以在交互者移动过程中时刻对齐交互者的实时位置。所以，本实施例中计算麦克风阵列转动的角速度并不是简单选取一段时间内转动角度的增量计算平均角速度，而是基于交互者运动的特点，即我们关心的是交互者在2个相邻落脚点之间移动时绕麦克风中心点的角速度，只有知道交互者在2个相邻落脚点之间移动时绕麦克风中心点的角速度，我们才能控制麦克风阵列按照相应的角速度跟随交互者，保持麦克风阵列的法向量可以实时跟踪运动中的交互者，以增强拾音效果。并且本实施例中，以交互者行走一步所消耗的时长为周期，对每个周期都更新一次麦克风阵列转动的角速度，从而保证麦克风阵列的法向量能够实时指向做变速运动的交互者。

构造好第一三角形之后，可以根据余弦定理求出第一目标角的角度。然后根据上述公式求出当前周期麦克风阵列转动的角速度大小。其中，/>可以通过视觉系统实时监测到的数据进行计算，例如交互者在t1时刻位于第一轨迹点p1=(x1,y1,z1)处，在t1时刻的上一个时间点t0时刻位于第零号轨迹点p0=(x0,y0,z0)，p1和p0之间距离为S0，则交互者位于第一轨迹点时的运动速度/>=S0/(t1-t0)米每秒。进一步的，根据第二轨迹点在世界空间坐标系中的坐标p2映射出第二轨迹点在视觉系统拍摄得到的图像上的图像坐标系的坐标p2’=(u2,v2)，求出世界坐标系中的坐标第一轨迹点p1在图像坐标系上的坐标p1’=(u1,v1),以图像左上角为图像坐标系的原点，以图像的宽度方向作为u轴，高度方向作为v轴，在图像坐标下中比较p1’和p2’二者的u轴分量的大小，如果u2<u1，即图像上p2’在p1’的左边，说明在世界空间坐标系中，麦克风阵列需要逆时针转动才能使得麦克风阵列的法向量从p1移动到p2的位置，所以需要控制麦克风阵列逆时针转动。反之，如果u2>u1，则需要控制麦克风阵列顺时针转动。若u2=u1，则说明交互者沿着麦克风阵列的法向量方向移动，此时需要控制麦克风阵列停止转动。

如果麦克风阵列波束响应的主瓣在t1时刻是指向第一轨迹点上的交互者的，那么根据上述公式计算得到控制麦克风阵列转动的角速度，就能够保证在交互者在从第一轨迹点向第二轨迹点移动的过程中，麦克风阵列波束响应的主瓣一直指向交互者。

在一个实施例中，所述视觉系统能够转动以调整捕获光线的方向，所述视觉系统包括单目相机、双目相机或深度相机，所述视觉数据包括图像数据，所述人体信息包括人脸或人体姿态，所述方法还包括：

检测到图像上的交互者对应的像素距离图像左侧的间距小于预设像素值时，控制视觉系统逆时针转动；

检测到图像上的交互者对应的像素距离图像右侧的间距小于预设像素值时，控制视觉系统顺时针转动。

具体的，如图5所示，相机设置在麦克风阵列上方，相机和麦克风阵列能够独立转动不受影响，具有更高的灵活度。具体的，麦克风阵列还具有调节水平高度的结构，一般使用时，可以将麦克风阵列的高度设置为与人唇部高度平齐，具体的，可以通过算法自动识别交互者唇部的高度，控制气缸驱动麦克风阵列的升降。如图8、9和10所示，假设图像分辨率为640*480像素，即宽高比为4：3，以图像左上角为图像坐标系的原点，以图像的宽度方向作为u轴，高度方向作为v轴，预设像素值为30，则当交互者在图像上对应的像素的集合中位于最左侧（即属于交互者的所有像素点中u轴分量最小的像素点）的像素点p4’=(u4,v4)与左侧边缘间距（即u=0）小于30个像素时（即u4<30），控制视觉系统逆时针转动，转动的幅度是使得交互者在图像上的唇部对应的像素至少有部分位于宽度方向的中点（即u=320）处。同理，当交互者在图像上对应的像素的集合中位于最右侧（即属于交互者的所有像素点中u轴分量最大的像素点）的像素点p5’=(u5,v5)与右侧边缘间距（即u=640）小于30个像素时（即u5>610），控制视觉系统顺时针转动，转动的幅度是使得交互者在图像上的唇部对应的像素至少有部分位于宽度方向的中点（即u=320）处。

需要说明的是，本文所称的顺时针是指从图1中的世界空间坐标系的z轴向下俯视时的视角进行的表述。即从空间的竖直方向俯视时的视角。

本实施例中，实现了控制视觉系统自动跟随交互者转动，具体的，在交互者将要离开视觉系统的视野范围时自动控制视觉系统转动，使得交互者位于视觉系统中间位置，避免了视觉系统丢失交互者视野的问题。同时由于再一次调节视野操作中（即转动视觉系统），使得交互者位于视野最中间，在不再调整视觉系统视野范围之后，留给交互者更大的活动范围，无需频繁调节视野操作。

在一个实施例中，视觉系统包括相机，第一视觉数据为图像，所述方法还包括：

如果所述语音唤醒信号的声纹均未与第一视觉数据中包含的多个不同人类对人体信息进行绑定，则根据以下策略确定与所述语音唤醒信号对应的交互者：

以图像中人脸像素占比最大的一个人作为交互者；或

以图像中人脸正对着相机的正对系数最低的一个人作为交互者；或

以一段连续的图像帧中的一个唇动者作为交互者。

本实施例中，提供了对并未将声纹与人脸绑定的用户的识别策略。其中，图像中人脸像素占比最大的一个人就是距离相机最近的人，一般认为交互者想要与语音交互设备互动时会距离语音交互设备很近，因此其人脸在图像中占比最大。图像中人脸正对着相机的比例是指识别出人脸中对称的器官，包括眼睛、鼻孔、耳朵，然后统计一张人脸上同一种器官中两个部分的像素数量的比值，例如，两个眼镜各自所占像素数量的比值等，然后将这些比值加起来作为人脸正对着相机的正对系数。可知，正对系数越低，则该人类越是正对着相机，将其作为交互者。另外，还可以利用相机录制一段视频，即连续的图像帧通过唇动识别，将唇动者作为交互者。

可以理解的是，如果通过上述方式仍然无法识别到正确的交互者，可以进一步采用唇形识别，当语音唤醒信号被采集到并触发相机对发出语音唤醒信号的位置进行图像采集之后，可以当再次从该区域接收到与语音唤醒信号声纹相同的新的语音信号时，对新的语音信号进行语音识别出文字，然后对同一个时间段内同时产生了唇动的多个人的唇形进行唇语识别，从而在多人唇动场景中，准确定位出正确的交互者。在正确定位出正确交互者之后，将该交互者的声纹与人脸进行绑定，以便后续通过相机对该人脸进行实时视觉定位。

在一个实施例中，所述方法还包括：

步骤S402，检测到交互者发出语音信号包含第一触发指令时，进入双人互动模式。

步骤S404，检测到非交互者的语音信号中包含第二触发指令时，选择发出包含所述第二触发指令的语音信号的人类作为参与者。

步骤S406，将所述交互者以及参与者的声纹加入双人互动声纹池。

步骤S408，在双人互动模式中，检测到与双人互动声纹池中的任意一个声纹匹配的语音信号时，对所述语音信号进行语音识别并响应。

可以理解的是，现有技术中，想要与语音交互设备进行对话，例如安装了siri的手机或配置了小爱同学的音响，每向其提问一个问题之前都需要先说出唤醒词，这会造成交互过程繁琐不便。而本实施例中，交互者前期一直在单人使用语音交互设备，当需要进入双人互动模式时，可以通过包含第一触发指令的语音信号来触发，例如第一触发指令为‘小万，切换双人互动模式’，则当交互者说出这句话时就会进入双人互动模式。例如，晚上孩子准备睡觉前，爸爸和孩子都已经一起躺在床上，孩子希望跟爸爸一起使用语音交互设备来参与睡前故事的播讲互动，或者进行由语音交互设备出题的简单智力比赛等。此时，爸爸作为交互者能够帮助孩子开启双人互动模式，孩子作为参与者，因此需要确定参与者的声纹信息，以便锁定参与者，所以可以让孩子说出“我想听故事”，其中“我想听故事”就是第二触发指令，第二触发指令可以由用户自由设置，以便适合不同年龄段用户的使用需求。在参与者说出第二触发指令之后，就可以将交互者和参与者的声纹加入到双人互动池中，后续在该模式下，二人中的任何一个人都可以不需要唤醒词就可以与语音交互设备进行交互，极大方便交互过程。可以理解的是，如果是单人，就退出双人互动模式，就仅需要将交互者一人的声纹加入到单人交互声纹池中，以便在多人活动的环境中，仅对交互者一人的声音进行响应。

进一步的，所述麦克风阵列为线性阵列，所述麦克风阵列能够转动以调整麦克风阵列的法向量的朝向，所述法向量为经过线性麦克风阵列的中心点并与线性阵列各阵元排列的方向垂直的矢量，所述方法还包括：

步骤S502，在双人互动模式中，利用视觉系统分别定位出交互者所在的第三位置以及参与者所在的第四位置；

步骤S504，以麦克风阵列中心点、第三位置和第四位置三个点为顶点构造第二三角形；

步骤S506，以麦克风阵列中心点对应的角作为第二目标角，基于所述第二三角形求出所述第二目标角的角度；

步骤S508，将第二目标角的一半角度作为目标角度；

步骤S510，控制麦克风阵列转动，以使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上；

步骤S512，调整麦克风阵列的波束响应的主瓣指向目标方向，所述目标方向为90°与所述目标角度作差之后得到的角度值相同的入射方向。

如图2中，已知入射方向为xoy平面内与x轴正方向的夹角，例如，如果与x轴正方向夹角为0，则入射方向为0，即从x轴的正方向入射到麦克风阵列中，如果与x轴夹角为90度，则入射方向为90，即从y正方向入射到麦克风阵列。因此，当第二目标角为60度时，则目标角度=30°，90°-30°=60°，即入射方向为60度的方向入射到麦克风，即与x轴正方向夹角为60度。

可以理解的是，线性阵列具有轴对称性（以该线性阵列所在直线为轴）其波束成形器同样具有轴对称性。如图2所示，组成麦克风阵列的各阵元沿着y轴排列，即该麦克风阵列所在的直线就是y轴，因此，该麦克风阵列的波束响应具有沿y轴的镜像对称性，而y轴与x轴夹角就是90°，这就是为什么以90°来减去目标角度的原因。具体的，如图7(a)至7(c)所示，该麦克风阵列的主瓣沿y轴镜像对称。换句话说，该麦克风阵列具有2个主瓣并且2个主瓣沿y轴镜像对称。而由于双人互动模式中会有两个用户（即交互者与参与者）的声音信号从不同方位传播过来并且都需要被增强，所以可以让2个主瓣同时指向交互者与参与者，以增强双人互动场景的拾音效果。

具体的，当爸爸和孩子一起躺在床上进行语音互动时，躺在床上的孩子可能会在床上翻滚或爬行而导致单个人位置发生移动，或者爸爸和孩子同时在床上进行翻滚玩耍导致双方位置都移动，因此，如何在双人互动模式中对其中一方或双方发生移动时，提供调整麦克风阵指向性的策略是本实施例要阐述的内容。

具体的，在双人互动模式中，当交互者和/或参与者发生移动时，通过以下策略调整麦克风阵阵列的指向性：

第一种，当交互者和参与者二者以相同的速度同时在移动并且该移动使得第二目标角的角度变大或变小时，仅调整麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等。

第二种，当交互者和参与者二者以相同的速度同时在移动并且该移动使得第二目标角的角度大小不变时，仅控制麦克风阵列转动，以使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上；

第三种，当仅有交互者或参与者其中一方在移动并且该移动使得第二目标角的角度变大或变小时，转动麦克风阵列的同时还需要调整麦克风阵列两个主瓣的夹角，使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上，并且麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等；

第四种，当交互者和参与者二者以不相同的速度同时在移动并且该移动使得第二目标角的角度变大或变小时，转动麦克风阵列的同时还需要调整麦克风阵列两个主瓣的夹角，使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上，并且麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等。

本实施例中，由于线性麦克风阵列沿着长度方向（即麦克风阵列各阵元排列的方向）呈轴对称，因此，在设计该麦克风阵列的波束响应时，容易确定2个主瓣出现的角度。从而在需要同时增强两个不同位置发出的两个语音信号的场景中，控制麦克风阵列转动，以使得麦克风阵列各阵元所所排列成的直线位于所述第二目标角的角平分线上之后，可以容易通过控制波束响应的两个主瓣之间的夹角以及配合转动麦克风阵列的转动角度，高效地控制两个主瓣指向对应的交互者或参与者。

而另一方面，考虑到转动麦克风阵列来调整主瓣的指向使之能够持续对齐两个用户，就需要结合轨迹预测在用户移动的同时转动麦克风阵列，保证调整麦克风阵列指向性的效率。如何预测用户的轨迹具体可以参照步骤S302至S310。本实施例还涉及同时预测2个移动用户的轨迹并基于预测的结果控制麦克风转动的角速度，本实施例中，以2个用户所在位置连线的中点作为麦克风阵列长度指向的目标，保证首先让麦克风各阵元所在的轴指向2个用户连线的中点，接下来调整波束响应的主瓣所指向的角度，使得两个主瓣分别指向两个用户。

本实施例中，采用的常规波束形成器，其波束响应为：

其中，N是线性麦克风阵列的阵元数量，d是相邻阵元的间距，为声波入射的角度，/>为期望主瓣出现的角度。

如图7(a)所示，以N=7，d=6cm，声音频率为2000Hz，为15°为例，可以看到各波束响应的主瓣均沿麦克风阵列的长度方向轴对称。并且如图7(a)所示，主瓣上从0dB到-3dB实际是有25.5-4.9=20.6度的范围，换句话说，虽然用户没有严格位于麦克风阵列的/>为15°的波束主瓣指向的位置，但是由于衰减在-3dB以内，所以在该区域所说的声音还是可以较清晰的被麦克风阵列采集，所以在控制麦克风阵列的波束响应的主瓣随着移动的交互者或者参与者进行同步移动的过程中，提供了20.6度范围的容错范围，该容错范围使得控制麦克风阵列转动的过程中，不一定严格要求波束主瓣指向的方向能够准确对齐用户的位置，衰减在-3dB以内，也不会导致声音被遗漏，进一步提升了拾音连贯性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRA）、存储器总线（Rambus）直接RAM（RDRA）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于声纹的语言识别方法，应用于语音交互设备，所述语音交互设备包括视觉系统和麦克风阵列，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于声纹的语言识别方法，所述麦克风阵列为线性阵列，所述麦克风阵列能够转动以调整麦克风阵列的法向量的朝向，所述法向量为经过线性麦克风阵列的中心点并与线性阵列各阵元排列的方向垂直的矢量，其特征在于，利用第一波束成形算法处理麦克风阵列各阵元采集到的声音信号；第一波束成形算法为延时为零的波束成形算法；

3.根据权利要求2所述的一种基于声纹的语言识别方法，其特征在于，所述方还包括：

基于视觉系统获取的包含交互者的视觉数据，检测交互者的运动状态；

若交互者的运动状态为非连续运动状态，切换至静态调整模式；处于所述静态调整模式下，基于时延为零的第一波束成形算法并且配合转动麦克风阵列的策略，对麦克风阵列的指向性进行调整；

若交互者的运动状态为连续运动状态，切换至移动调整模式；处于所述移动调整模式下，基于时延不为零的波束成形算法并且配合无需转动麦克风阵列的策略，对麦克风阵列的指向性进行调整。

4.根据权利要求2所述的一种基于声纹的语言识别方法，其特征在于，所述方法还包括:

按照以下流程，控制每个周期麦克风阵列转动的角速度大小：

在每个周期的起始时刻，对当前时刻的实际运动轨迹进行轨迹预测，得到预测轨迹；

从预测轨迹上获取与当前时刻交互者所在的第一轨迹点距离为预设距离的第二轨迹点；

以麦克风阵列中心点、第一轨迹点和第二轨迹点三个点为顶点构造第一三角形；

以麦克风阵列中心点对应的角作为第一目标角，基于所述第一三角形求出所述第一目标角的角度；

基于以下公式确定当前周期麦克风阵列转动的角速度大小：

5.根据权利要求1所述的一种基于声纹的语言识别方法，其特征在于，所述视觉系统能够转动以调整捕获光线的方向，所述视觉系统包括单目相机、双目相机或深度相机，所述视觉数据包括图像数据，所述人体信息包括人脸或人体姿态，所述方法还包括：

6.根据权利要求1所述的一种基于声纹的语言识别方法，其特征在于，视觉系统包括相机，第一视觉数据为图像，所述方法还包括：

以图像中人脸像素占比最大的一个人作为交互者；或

以一段连续的图像帧中的一个唇动者作为交互者。

7.根据权利要求1所述的一种基于声纹的语言识别方法，其特征在于，所述方法还包括：

检测到交互者发出语音信号包含第一触发指令时，进入双人互动模式；

检测到非交互者的语音信号中包含第二触发指令时，选择发出包含所述第二触发指令的语音信号的人类作为参与者；

将所述交互者以及参与者的声纹加入双人互动声纹池；

在双人互动模式中，检测到与双人互动声纹池中的任意一个声纹匹配的语音信号时，对所述语音信号进行语音识别并响应。

8.根据权利要求7所述的一种基于声纹的语言识别方法，所述麦克风阵列为线性阵列，所述麦克风阵列能够转动以调整麦克风阵列的法向量的朝向，所述法向量为经过线性麦克风阵列的中心点并与线性阵列各阵元排列的方向垂直的矢量，其特征在于，所述方法还包括：

在双人互动模式中，利用视觉系统分别定位出交互者所在的第三位置以及参与者所在的第四位置；

以麦克风阵列中心点、第三位置和第四位置三个点为顶点构造第二三角形；

以麦克风阵列中心点对应的角作为第二目标角，基于所述第二三角形求出所述第二目标角的角度；

将第二目标角的一半角度作为目标角度；

控制麦克风阵列转动，以使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上；

调整麦克风阵列的波束响应的主瓣指向目标方向，所述目标方向为90°与所述目标角度作差之后得到的角度值相同的入射方向。

9.根据权利要求8所述的一种基于声纹的语言识别方法，其特征在于，所述方法还包括：

在双人互动模式中，当交互者和/或参与者发生移动时，通过以下策略调整麦克风阵阵列的指向性：

当交互者和参与者二者以相同的速度同时在移动并且该移动使得第二目标角的角度变大或变小时，仅调整麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等；

当交互者和参与者二者以相同的速度同时在移动并且该移动使得第二目标角的角度大小不变时，仅控制麦克风阵列转动，以使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上；

当仅有交互者或参与者其中一方在移动并且该移动使得第二目标角的角度变大或变小时，转动麦克风阵列的同时还需要调整麦克风阵列两个主瓣的夹角，使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上，并且麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等；

当交互者和参与者二者以不相同的速度同时在移动并且该移动使得第二目标角的角度变大或变小时，转动麦克风阵列的同时还需要调整麦克风阵列两个主瓣的夹角，使得麦克风阵列各阵元所排列成的直线位于所述第二目标角的角平分线上，并且麦克风阵列波束响应中两个主瓣的夹角与第二目标角的角度相等。

10.一种基于声纹的语言识别装置，其特征在于，所述装置包括麦克风阵列、视觉系统、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1至9中任一项所述方法的步骤。