CN108735219A

CN108735219A - 一种声音识别控制方法及装置

Info

Publication number: CN108735219A
Application number: CN201810437831.3A
Authority: CN
Inventors: 罗富强; 廖明忠; 纪家玮; 黄章平
Original assignee: SHENZHEN YUHENG INTERACTIVE TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: SHENZHEN YUHENG INTERACTIVE TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-11-02
Anticipated expiration: 2038-05-09
Also published as: CN108735219B

Abstract

本发明涉及一种声音识别控制方法及装置，该方法应用于声音识别控制装置，该方法包括：通过感测单元感测用户当前声音振动信息和/或运动行为信息；将感测到的当前声音振动信息和/或运动行为信息采用预设算法进行运算处理，根据运算处理结果获得与当前声音振动信息对应的特征信息；根据特征信息输出命令控制信号。本发明在不需要对声音的内容或声纹波形判断的条件下，仅对感测单元感测到的声音振动信息和运动行为信息进行处理，根据处理结果识别出用户的开始说话的特征信息，降低了技术难度、成本及功耗，提高了稳定性，最大程度以另一种不同的消噪方式，完全隔绝滤除用户自己声音以外的声音，提高了精准判断用户语音的能力。

Description

一种声音识别控制方法及装置

技术领域

本发明涉及传感器感测及控制领域，更具体地说，涉及一种声音识别控制方法及装置。

背景技术

基于苹果公司WO2014051969A1-SYSTEM AND METHOD OF DETECTING A UASER’SVOICE ACTIVITY USING AN ACCELEROMETER CROSS REFERENCED APPLICATIONS专利技术，以及专利201010224803.7、201010224769.3、201010224780.x、201010230464.3、201010243048.7、201120374763.4发现这些专利技术都与加速度传感器用于声音感测有关，直接或间接与声波识主功能相关或能提高其应用体验，但并不能全面解决或缓解所有声波识主控制的问题，所谓识主就是当前在使用的耳麦、麦克风的用户被所用的耳麦、麦克风装置所识别，并且专门为用户的语音服务，以及最大程度地隔绝滤除非用户自己的声音的一种技术，201010224769.3利用加速度传感器以接触式感测环境中的碰触、拉线、地面抖动、机械振动噪声的振动信息，并以之作为参考滤除叠加在麦克风所收取声音上的相同环境噪声,因此这个专利与声波识主还有较大差异，苹果的专利采用了加速度传感器检测，配合麦克风语音信息辨识语音用户是当前最接近的技术，考虑完整周全但识主技术复杂，不便于普及和推广。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种声音识别控制方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种声音识别控制方法，应用于声音识别控制装置，其特征在于，所述方法包括：

通过感测单元感测用户当前声音振动信息和/或运动行为信息；

将感测到的当前声音振动信息和/或运动行为信息采用预设算法进行运算处理，根据运算处理结果获得与所述当前声音振动信息对应的特征信息；

根据所述特征信息输出命令控制信号。

优选地，所述将感测到的当前声音振动信息和运动行为信息采用预设算法进行运算处理的步骤包括：

采用时域、频域或时频域的方法对所述当前声音振动信息和/或运动行为信息进行分离和/或提取，获得用户当前声音振动数据和运动行为数据；

对所述当前声音振动数据和/或运动行为数据进行运算处理，获得所述特征信息。

优选地，所述采用时域、频域或时频域的方法对所述当前声音振动信息和/或运动行为信息进行分离和/或提取的步骤包括：

通过卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中的任意一种或多种的组合，以时域、频域或时频域的方法对所述当前声音振动信息和/或运动行为信息进行分离和/或提取。

优选地，所述对所述当前声音振动数据和/或运动行为数据进行运算处理的步骤包括：

通过比较声音能量强度的方法和/或拟合特定曲线的方法对所述当前声音振动数据和/或运动行为数据进行运算处理。

优选地，所述当前声音振动信息包括：声带振动信息和/或用户说话而引起面部肌肉、骨骼、关节或者皮肤所产生的运动信息；

所述当前运动行为信息包括：头部的姿态变化动作信息或身体运动的动作信息；

所述感测单元设置在易于感测用户说话振动和/或相关运动信息的位置，所述位置包括头顶、额头、耳、嘴、脸颊、下巴、颈部、咽喉中的至少一处。

优选地，所述方法还包括：

判断是否接收到声音接收单元感测到用户原始声音信息；

若是，存储所述用户原始声音信息的数据。

优选地，所述方法还包括：

将所述用户原始声音信息的数据作为参考数据，以对所述当前声音振动数据和/或运动行为数据进行比较运算，获得所述特征信息。

优选地，所述方法还包括：

判断是否在播放声音信息；

若是，则存储、切断或降低所述播放声音信息。

优选地，所述方法还包括：

获取播放的声音信息、用户原始声音信息；

将所述播放的声音信息、所述用户原始声音信息、以及所述当前声音振动信息采用所述预设算法进行运算处理，再通过能量曲线分析和/或能量曲线拟合和/或波形对比分析，找出两者或三者的相似或相异性，获得所述特征信息。

优选地，所述方法还包括：

获取外部设备的工作状态信息、所述声音识别控制装置的软硬件的当前使用状态信息；

基于所述工作状态信息、所述当前使用状态信息、以及所述感测单元的预存数据或者预存运算处理结果自动调整所述预设算法的参数或者所述装置的工作模式。

优选地，所述方法还包括：

对所述运动行为数据进行降频处理、数据抽取，以获得用户的人体动作数据。

优选地，所述感测单元包括至少两个加速度传感器，所述至少两个加速度传感器以不同的位置、角度或者方向设置在所述声音识别控制装置上；

所述方法还包括：

将所述至少两个加速度传感器感测的用户当前声音振动信息和/或运动行为信息进行融合运算，获得与所述当前声音振动信息对应的特征信息。

优选地，所述感测单元包括多轴加速度传感器；

所述方法还包括：

根据所述多轴加速度传感器在每个轴向上的振动信息强度，并应用所述运算处理结果区分声源和/或识别语音振动特征和/或运动特征。

优选地，所述方法还包括：通过在所述声音识别控制装置的外壳内、外和/或本体上的配重、质量、重心、材质、截面、表面处理，并在声音振动波传递路径上采用贴、附、沾、黏、触、镀、涂的方式设于所述声音识别控制装置上，并以不同材质、不同柔软度材料吸收、阻断、强化、反射声波的振动传播特性和/或共振特性，以突显或控制所述加速度传感器的不同轴的轴向的正交、平行或设定倾斜角度的声音振动感测灵敏度。

本发明还提供一种声音识别控制装置，所述装置佩戴在用户的头部，包括：

感测单元，用于感测用户当前声音振动信息和/或运动行为信息；

运算处理单元，用于将感测到的当前声音振动信息和/或运动行为信息采用预设算法进行运算处理，根据运算处理结果获得与所述当前声音振动信息对应的特征信息；

控制单元，用于根据所述特征信息输出命令控制信号。

优选地，所述感测单元包括至少一轴的模拟加速度传感器；

所述运算处理单元包括用于读取所述至少一轴模拟加速度传感器感测的当前声音振动信息和/或运动行为信息的A/D读取单元；所述A/D读取单元的分辨率为10bit～16bit；

或者，所述感测单元包括至少一轴数字加速度传感器，所述数字加速度传感器内设有低通滤波器或者不设置低通滤波器，且所述数字加速度传感器的分辨率为10bit～16bit。

优选地，所述感测单元包括至少一个加速度传感器，其中，所述至少一个加速度传感器设置于可感测用户声音振动信息和/或运动行为信息的位置。

优选地，所述感测单元包括至少两个加速度传感器；

所述至少两个加速度传感器以不同的位置、角度或者方向设置在所述声音识别控制装置上，以通过所述至少两个加速度传感器感测用户当前声音振动信息和/运动行为信息，并将所述至少两个加速度传感器感测的用户当前声音振动信息和/或运动行为信息进行融合运算，获得与所述当前声音振动信息对应的特征信息。

优选地，所述感测单元包括多轴加速度传感器；

通过在所述声音识别控制装置的外壳内、外和/或本体上的配重、质量、重心、材质、截面、表面处理，并在声音振动波传递路径上采用贴、附、沾、黏、触、镀、涂的方式设于所述声音识别控制装置上，并以不同材质、不同柔软度材料吸收、阻断、强化、反射声波的振动传播特性和/或共振特性，以突显或控制所述加速度传感器的不同轴的轴向的正交、平行或设定倾斜角度的声音振动感测灵敏度。

优选地，所述运算处理单元还包括：

数据分析提取模块，用于通过卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中的任意一种或多种的组合，并采用时域、频域或时频域的方法对所述当前声音振动信息和/或运动行为信息进行分离和/或提取，获得用户当前声音振动数据和运动行为数据；

运算模块，用于对所述当前声音振动数据和/或运动行为数据进行运算处理，获得所述特征信息。

优选地，所述运算处理单元还包括：

语音缓存模块，用于接收声音接收单元感测的用户原始声音信息，并存储当前声音信息的数据；

参考比较模块，用于将所述当前声音信息的数据作为参考数据，以对所述当前声音振动数据和/或运动行为数据进行比较运算，获得所述特征信息。

优选地，所述运算处理单元还包括：

获取模块A，用于获取播放的声音信息、用户原始声音信息；

获取模块B，用于获取外部设备的工作状态信息、所述声音识别控制装置的软硬件的当前使用状态信息；

信息分析处理模块，用于将所述播放的声音信息、所述用户原始声音信息、以及所述当前声音振动信息采用所述预设算法进行运算处理，获得所述特征信息。

优选地，所运算处理单元还包括：

预选模块，用于基于所述外部设备的工作状态信息、所述声音识别控制装置的软硬件的当前使用状态信息、以及所述感测单元的预存数据或者运算处理结果自动调整所述预设算法的参数或者所述装置的工作模式。

优选地，所述运算处理单元还包括：

降频模块，用于对所述运动行为数据进行降频处理、数据抽取，以获得用户的人体动作数据。

优选地，所述装置为头戴式耳机、头戴式麦克风或者头戴式耳麦、或者头戴式简易感测装置。

优选地，所述装置还包括麦克风和/或喇叭。

实施本发明的声音识别控制方法，具有以下有益效果：本发明在不需要对语音的内容或声纹波形判断的条件下，仅对感测单元感测到的声音振动信息和运动行为信息进行处理，根据处理结果识别出用户的开始说话的特征信息，降低了技术难度、成本及功耗，提高了稳定性，最大程度以另一种不同的消噪方式，完全隔绝滤除用户自己声音以外的声音，提高了精准判断用户语音的能力。

另外，本发明应用于其他场合时，如语音转文字时可废字率降低，个人、学生或记者的记事或学习无效录音时间长度大幅缩减，对讲机发话键自动化、高密度近距离人群间录音或语音识别干扰大幅减低，社交软件短语音信息发送效能大幅提高等。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明声音识别控制方法的流程示意图；

图2是本发明声音识别控制装置的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，图1为本发明实施例提供的一种声音识别控制方法的流程示意图。该声音识别控制方法可应用于声音识别控制装置，其中，该声音识别控制装置可包括但不限于头戴式耳机、头戴式麦克风或者头戴式耳麦等头戴式装置、或者头戴式简易感测装置。具体的，本发明的声音识别控制方法可包括步骤S10、步骤S20、以及步骤S30。

如图1所示：

步骤S10、通过感测单元感测用户当前声音振动信息和/或运动行为信息。该用户当前声音振动信息可以为当前一定时间段内或当前时刻感测到的用户说话的声音振动信息，当前运动行为信息可以为当前一定时间段内或当前时刻感测到的用户人体动作的运动行为信息。

可选的，本发明实施例的感测单元可包括至少一个加速度传感器，其中，至少一个加速度传感器设置于可感测用户声音振动信息和/或运动行为信息的位置，在具体应用中，多个加速度传感器可采用以设定的夹角、如正交或平行等直接接触和/或间接接触地感测用户头部的声音振动信息和运动行为信息。进一步地，本发明实施例所采用的加速度传感器为至少一轴的加速度传感器。即根据产品使用的不同需求，加速度传感器可以采用单轴、两轴、三轴或者多轴，个数可以是一个或多个，摆放的位置也可以是多种，如设定的夹角、正交、平行等，以便得到最佳的感测效果，例如，将带有加速度传感器的耳麦、麦克风、或者头戴式简易感测装置等装置佩戴在用户头部(如头顶、额头、耳、眼、嘴、脸颊、下巴和/或颈部、和/或咽喉的至少一处等易于感测到用户说话振动或相关运动信息的位置。也就是说，可安装在头部的任意位置，包括颈部和咽喉部等，越靠近咽喉部，声带振动越明显，越靠近嘴唇，嘴角的肌肉变化感测越明显，如在下巴上，感测讲话产生的动作最明显，此时采用加速度的姿态或动作变化感测最灵敏，通过不同位置，可以取得不同的效果，也方便应用于不同的场合)，在用户讲话时感测用户的声音引起的声音振动信息，以及用户头部和身体运动时的运动行为信息，这些信息通过加速度传感器的感测得到感测相应的感测信号。

当前声音振动信息可以为用户开始说话时产生的声音振动信息和/或运动信息，也可以为用户在持续说话过程中产生的声音振动信息和/或运动信息。其中，该当前声音振动信息可以为声带振动信息和/或用户说话而引起面部肌肉、骨骼、关节或者皮肤所产生的运动信息。即当用户在说话过程中，因说话会引起声带的振动和/或由于用户因说话而导致的面部肌肉、骨骼、关节、皮肤等而产生振动，通过加速度传感器即可感测到这些振动，进而根据所感测到的振动输出相应的感测信号，即本文所指的声带振动信息。具体的，头部声音振动信息除了声带引起的，还有讲话时下巴带动嘴角的肌肉的运动、牙齿碰撞、牙关节活动及摩擦的声音引起的振动，以及皮肤与耳麦之间的摩擦，这些都能被加速度传感器所感测，成为信号捕捉的一部分。

当前运动行为信息可以为头部的姿态变化动作信息或身体运动的动作信息。即在用户没有发生与说话有关的动作行为时，被加速度传感器所感测到的与声音无关的运动行为时所输出的感测信号，即本文所指的运动行为信息。用户身体的运动、头部的摆动、走动等都能被加速度传感器捕捉，成为感测信号的一部分，这些信号与说话无关，头部的姿态变化的动作和身体的动作具体包括但不限于：摇晃，点头走，跑，跳，爬，转动，抖动，倾倒，摔，滚，躺，挥，踢，摇，晃，敲击，碰撞。

步骤S20、将感测到的当前声音振动信息和/或运动行为信息采用预设算法进行运算处理，根据运算处理结果获得与当前声音振动信息对应的特征信息。

进一步地，步骤S20包括步骤S201和步骤S202。

步骤S201、采用时域、频域或时频域的方法对当前声音振动信息和/或运动行为信息进行分离和/或提取，获得用户当前声音振动数据和运动行为数据。其中，该步骤可通过采用卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中的任意一种或多种的组合实现。即可通过卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中的任意一种或多种的组合，以时时域、频域或时频域的方法对当前声音振动信息和/或运动行为信息进行分离和/或提取，进而可获得用户当前声音振动数据和/或运动行为数据。

步骤S202、对当前声音振动数据和/或运动行为数据进行运算处理，获得特征信息。

具体的，在该步骤中，采用比较声音能量强度的方法和/或拟合特定曲线的方法对当前声音振动数据和/或运动行为数据进行运算处理，最终得到与当前声音振动信息对应的特征信息。

步骤S30、根据特征信息输出命令控制信号。

该步骤是根据特征信息产生命令控制信号，并通过该命令控制信号控制用户语音的通断，或者向外部设备发送该命令控制信号、以控制外部设备的通断。例如，该声音识别装置设有麦克风，则根据用户开始说话的特征信息，可产生命令控制信号控制麦克风的打开或关闭。如，用户戴上耳麦，耳麦感测到用户开始说话，立刻将耳麦上的麦克风打开送出用户的语音，讲话完毕后，关断麦克风对外的送音功能，减少了用户环境噪音对外送音的不良应用体验。又或者，该声音识别装置没有麦克风，当获得用户开始说话的特征信息后，根据该特征信息可产生命令控制信号，并将命令控制信号通过内置于装置中的通信模块发送给外部设备(如麦克风)，进而通过发命令控制信号控制外部设备打开或关闭。

进一步地，本发明的声音识别控制方法还包括：

A1、判断是否接收到声音接收单元感测到用户原始声音信息。

A2、若是，存储用户原始声音信息的数据。

可选的，声音接收单元可以为麦克风。具体的，若该声音识别控制装置设有麦克风，则可通过麦克风实时感测用户的原始声音信息。并且在检测到有麦克风实时感测数据(即用户的原始声音信息)时，同步存储到存储器内。其中，所存储在存储器中的麦克风实时感测的用户原始声音信息可以作为对比数据，即可作为加速度传感器所感测到的当前声音振动信息的运算处理结果后，根据运算处理结果从存储器中提取作为对比数据取用，或者从存储器中清除所存储的声音信息数据。

在一些特定用途的声音振动信息算法判定分析过程中，时间太长，导致驻极体和/或微机电麦克风所感测到实时说话中的用户声音信息数据丢失，对感测到用户声音的驻极体和/或微机电麦克风通过和/或不通过模数转换器所得到的数字信息数据以存储器将麦克风收到的声音数据同步缓存，在加速度传感器所感测到的声音振动信息依不同用途做完计算判断后，再依判定结果从缓存内取用和/或清除，虽然有了一定的时延，但解决了用户声音信息数据丢失问题,满足了必要的相对实时性。例如在声音学中有浊音和清音，浊音由喉咙声带振动而发音，清音声带不振动，因此清音辨识采用声带振动不易识别，但还是有较小能量可以识别，此时可以采用延长判定能量积累时间和/或放宽曲线拟合程度和/或增强加速度传感器敏感度和/或降低能量阈值的方式进行计算判定，此时麦克风感测用户的声音信息数据可能丢失，但可以采用缓存的方法保存，在加速度传感器判定成功后再从缓存中播放用户的语音，这样用一定的延时解决了数据丢失的问题。

进一步地，本发明的声音识别控制方法还包括：

A3、将用户原始声音信息的数据作为参考数据，以对当前声音振动数据和/或运动行为数据进行比较运算，获得特征信息。

具体的，在有麦克风和加速度传感器并存且能控制取用麦克风所接收到的用户原始声音信息数据的条件下，使用麦克风的声音数据作为参考数据，可通过该参考数据辅助对当前声音振动数据和/或运动行为数据进行比较运算，获得更加精确的特征信息，即可通过该参考数据协助对当前声音振动数据和/或运动行为数据的数据运算处理及判断、过滤因动作行为信息所造成的误触发干扰。

在麦克风与加速度传感器并存且能控制取用麦克风所收取到的声音条件下，使用麦克风的声音数据作为参考数据，在获得用户当前声音数据，并满足特定能量强度曲线和/或曲线拟合结果后，利用麦克风无法感应用户动作行为信息的特性可用于协助判断及过滤因某些过大动作行为信息所造成的误触发干扰。由于麦克风距离用户的嘴非常近，利用抑噪(Noise Reduction)和/或射束成形(Beam Forming)算法，和/或特定手段降低麦克风感度，和/或提高收音能量门坎阈值，和/或特殊的结构设计，会导致用户说话音量与周围环境音量间产生较大的比值差异，在加速度传感器上被迭加入动作行为信息后，除了利用卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中至少一个滤波器，以时域，频域或时频域方法，分离和/或提取出当前声音振动数据和运动行为数据后，再用比较声音能量强度、拟合特定曲线处理计算方法中的一种或多种方式进行运算滤除外，还能和/或再通过数据融合算法和/或特定对比算法在麦克风所收取到用户声音能量曲线和/或曲线拟合结果满足特定要求的条件下，把第二次关，避免了在用户不说话条件下因较剧烈运动产生过大的动作行为信息产生的误触发所导致的用户体验下降的问题。举例来说，在用户在做跑、跳等剧烈运动行为时，会使加速度传感器所感测的信号为误触发信号，经过数据处理后所得到的特征信息有可能为不准确的特征信息，此时，将麦克风接收的声音信息数据作为参考数据与加速度传感器所感测的当前声音振动数据和/或运动行为数据进行数据运算处理，如加入判断麦克风收取声音的强度曲线和/或曲线拟合，进而可获得更加精确的特征信息。可以理解地，该方案只要环境噪声不够大，用户不说话则再大的动作都不会造成误触发。

进一步地，本发明的声音识别控制方法还包括：

B1、判断是否在播放声音信息。

该步骤中，播放的声音信息可以定义为装置内，如耳麦的喇叭发出的装置内部的提示语音和/或接收到的对端声音信息，如通话和音乐。

进一步地，在步骤B1之后可包括：

B2、判断麦克风是否有收到足够的声音，并且满足强度的能量和/或满足需拟合的曲线。

B3、若是，则储存、切断或降低播放的声音信息，即正在播放的声音信息。

在该步骤中，切断播放的声音信息可通过阻断耳麦、麦克风内喇叭和/或瞬间降低音量至用户无法感知到的条件下、以改变喇叭发声有无或强度的方法实现。通过该方式可以解决在播放对端音乐和/或双向通话时因喇叭播放的端声音所产生声音振动干扰了加速度传感器的识别判断的功能。

在喇叭与加速度传感器近距离并存，如在耳机中，耳机的喇叭与加速度传感器由于耳机外壳空间限制，两者安装位置很近，因而会造成干扰。在造成干扰条件的情况下，利用瞬间阻断耳麦、麦克风内喇叭、和/或瞬间降低喇叭音量至用户无法感知到的条件下，以改变喇叭发声有无或强度的方法，如静音、暂停播放、音量减半、切断喇叭等方式切断喇叭对加速度传感器的干扰。解决了如在播放音乐和/或双向通话时，因喇叭播放声音所产生声音振动对加速度传感器感测用于声音的识别的干扰的问题。例如在耳机喇叭播放音乐或语音的应用场景下，用户一但说话，麦克风端即可接收到用户发出的声音信号，同时判断是否喇叭是否发声，若是，则立即将喇叭静音或降低音量，然后以最短时间运行用户说话声音振动侦测算法，在计算后或计算中恢复喇叭播放，以提高感测计算用户说话声音振动的计算精度，避开喇叭振动的干扰。也即通过短时间关断喇叭播放声音，首先保证不受干扰进行说话行为的加速度传感器判断识别之后，再打开喇叭播放功能，从而提高识别成功率及准确度。

进一步地，本发明的声音识别控制方法还包括：

C1、获取播放的声音信息、用户原始声音信息；

C2、将播放的声音信息、用户原始声音信息、以及当前声音振动信息采用预设算法进行运算处理，再通过能量曲线分析和/或能量曲线拟合和/或波形对比分析，找出两者或三者的相似或相异性，获得特征信息。

该步骤中，通过播放的声音信息、用户原始声音信息，并以播放的声音信息、用户原始声音信息作为参考，并与加速度传感器所感测到已将两种声音迭加混合的声音振动信息数据通过数字滤波后再通过能量曲线分析和/或能量曲线拟合、和/或波形对比分析等方法，找出两者或三者的相似或相异性，以获得更加准确的用户说话的特征信息，从而判别用户有无说话。

进一步，本发明的声音识别控制方法还包括：

D1、获取外部设备的工作状态信息、声音识别控制装置的软硬件的当前使用状态信息。

D2、基于外部设备的工作状态信息、声音识别控制装置的软硬件的当前使用状态信息、以及感测单元的预存数据或者预存运算处理结果自动调整预设算法的参数或者装置的工作模式。

通过无线蓝牙芯片和/或有线声音处理通讯芯片端，获取手机、和/或计算机等任何能够处理语音的任何设备的工作状态信息，如通话、音乐播放、语音助理等，以及该装置的软硬件的当前使用状态信息、以及根据加速度传感器的原始感测数据(即感测单元的预存数据)或者预存运算处理结果等作为参考，预先调整预设算法的参数或者调整装置进入不同的工作模式。例如，若能先从APP和/或设备系统、软件上、让该装置事先获知要进入音乐播放、语音通话或语音助理中的任一种应用场景，则可以先进行相应的参数调整或进入不同的工作模式。如下但不限于：取消或开启喇叭瞬间静默功能，取消或开启麦克风，获取音量强度阻断动作行为误触发功能,取消或开启需要或不需要的加速度传感器，取消或开启声音缓存的功能，借以得到更好的用户体验效果。

进一步地，本发明的声音识别控制方法还包括：

对运动行为数据进行降频处理、数据抽取，以获得用户的人体动作数据。加速度传感器所感测到的用户人体动作的运动行为信息的数据，经过降频处理、以及数据抽取等可以得到人体动作数据。该人体动作数据一方面可用于显示、动作、姿态、轨迹的识别和控制，如计步、睡眠、游泳、双击动作、静置判断等；另一方面可降低高速采样的频率与数据量(例如，降到25H或50Hz或100Hz)，能直接使用低功耗的运动识别算法，提升了运行效率及降低功耗。

进一步地，该感测单元包括至少两个加速度传感器，至少两个加速度传感器以不同的位置、角度或者方向设置在所述声音识别控制装置上。本发明的声音识别控制方法还包括：

将至少两个加速度传感器感测的用户当前声音振动信息和/或运动行为信息进行融合运算，获得与当前声音振动信息对应的特征信息。

例如，将两个加速度传感器分别放在电子眼镜的两端，当左右摇晃头部时，两个加速度传感器的运动方向相反，因此，能够分别将两个加速度传感器往重力方向及离开重力方向的运动特征“差值”更明显的表现出来，方便动作特征的识别。

例如，以一个长条状细长无线蓝牙耳机为例，在入耳端放置一个加速度传感器，在麦克风端(相对入耳端的最远处)，放置另一个加速度传感器，说话时下颌骨关节运动所带动的脸颊及耳朵附近的肌肉运动会让无线耳机，以入耳处加速度传感器所在位置为支点，搭配靠近麦克风端的远端加速度传感器，做离开或靠近脸颊的动作，入耳端支点上的加速度传感器在下颌骨关节运动时感测到轻微的运动，但靠近麦克风的加速度传感器，因此有了距离产生了类似力矩的现象，而感测到远大于支点的运动。取出这两个加速度传感器重力方向的姿态、加速度或振动强度特定轴向上的“差值”用来分辨下颌骨关节有无运动，搭配声带振动感测，可以更确定的知道用户说话状态特征，而非下颌骨关节的运动。如摇头、点头、走路这些运动，是同步作用在两个加速度传感器上没有力矩现象产生的，所以特定轴向产生的“差值”特征远小于下颌骨关节运动所产生的差值特征，所以能很容易的被分辨出来。

优选地，本发明的声音识别控制方法还包括：

根据多轴加速度传感器在每个轴向上的振动信息强度，并应用运算处理结果区分声源和/或识别语音振动特征和/或运动特征。

具体的，当感测单元为多轴加速度传感器时，由于多轴加速度传感器每个轴的轴向不同，对不同方向来源的声音、声质感测的振动信息强度(如灵敏度)不同，因此，根据多轴加速度传感器在每个轴向上感测到的振动信息强度，并应用运算处理结果(通过能量强度判断、拟合特定曲线或进行波形对比的方式进行运算所获得的结果)，可以区分声源、识别语音振动特征以及运动特征，即可以区分声源和/或识别有无声音的振动特征，以及运动特征。

以三轴加速度传感器为例，由于三轴加速度传感器本身构架是对于声源轴向安装感测灵敏度最高，其它方向不敏感，三轴在芯片内集成为X、Y、Z三个方向，由于在耳麦中安装位置的缘故，麦克风与加速度传感器以一定结构固定，并且在耳麦戴上后，耳麦上喇叭发声与用户语音声音来自两个不同的方向，声音在时、频域上能量谱分布也明显不同，因此两种声音在三轴加速度传感器上所产生的感测信号有明显的不同，两种信号分别采用能量强度判断、拟合特定曲线或进行波形对比的方式进行运算，结合测试结果对喇叭声音和语音声音、以及运动特征在加速度传感器上的振动数据进行区分。具体的实验中，三轴加速度传感器，Z轴垂直于重力方向但正交于用户脸颊，Y轴平行于重力方向但正交于喇叭纸盆振动方向，这两轴又彼此正交。在喇叭播放音乐时Y轴明显感测到喇叭纸盆引起的振动信息，用户说话时说话的声音被迭加上去但引起的能量变化较小，而Z轴上测量到的音乐信息能量极低,但用户说话声音的振动信息却非常明显，两者比值差异很大，同时捡出两轴的振动信息，完全能够作为不同声源发声的有力判断依据。

进一步地，本发明的声音识别控制方法还可以通过辅助手段突显或控制加速度传感器在不同轴向上的感测灵敏度。

通过在声音识别控制装置的外壳内、外和/或本体上的配重、质量、重心、材质、截面、表面处理，并在声音振动波传递路径上采用贴、附、沾、黏、触、镀、涂的方式设于所述声音识别控制装置上，并以不同材质、不同柔软度材料吸收、阻断、强化、反射声波的振动传播特性和/或共振特性，以突显或控制所述加速度传感器的不同轴的轴向的正交、平行或设定倾斜角度的声音振动感测灵敏度。

具体地，由于加速度传感器是固定在装置的外壳内部电路板上，间接通过外壳的外表与耳朵接触，在经由电路板传递通过耳朵软骨，皮肤，肌肉传递过来的声音振动，这个传递路径包含了整个装置，所以由装置的质量、重心平衡、材质或人为的刻意配重，都能导致声音振动的传递与共振被吸收、阻断、强化、反射的正常物理现象产生，其中截面是在同样材质的两个壳料，如耳机入耳部位与链接麦克风的部位中间截断面使用诸如硅胶类软质材料，就会改变传递声音振动的特性。而在与耳朵接触的外壳表面，若在原有的材质上做特定表面处理加大磨擦力，增加汗渍的不沾附性，始终保持与耳朵最佳的贴合条件，或外型结构设计能符合大多数人耳孔并保持一定舒适度条件下，最大面积的与耳朵皮肤、软骨、肌肉接触，自然也就能取得最佳的声音振动信息。另外，在壳内与喇叭形成共振腔体的表面贴、附、沾、黏陶瓷片或吸音颗粒改变共振特性，同时就会导致加速度传感器的感测信息产生变化。而若在外壳与耳朵接触的表面喷涂或电镀上特定液态材料经过后段烘烤固化，改变对声音振动的传导条件，也会导致加速度传感器的感测信息产生变化。这些原理都是基于加速度传感器所感测到的声音振动是完全与产品系统性相关的，而最佳声音振动信息的取得就是在整个系统的方方面面都仔细考虑，一点一点的获取过来。

本发明的声音识别控制方法不需麦克风做用户声音辩识辅助，仅通过使用一个或多个加速度传感器，感测用户头部或颈部能易于感测到的发声部位上，由用户发声所产生的相应振动或动作，利用加速度传感器的摆放位置，装置的结构设计、材料应用等强化突显和/或弱化隐藏发声振动或动作的信息捡拾，通过预设算法计算过滤必要的声音，非必要的声音与产生误触发的干扰动作，配合喇叭端播放的静音或暂停控制造成喇叭放音的瞬间静默和/或对比喇叭端原始播放音源，以满足算法对信息数据的要求，再辅以声音预录缓存，达到在不同应用场景下，最完美保存用户原始声音，并获取对“识人”功能的最优控制效果。

另外，加速度传感器所感测到的用户人体动作行为信息数据、经过降频、数据抽取得到人体动作数据，一方面可用于显示、动作、姿态、轨迹的识别和控制，如计步、睡眠、游泳、双击动作、静置判断等，另一方面降低高速采样的频率与数据量(降到25H或50Hz或100Hz)，能直接使用低功耗的运动识别算法。

参考图2，本发明还提供了一种声音识别控制装置，该声音识别控制装置可用于实现上述实施例的声音识别控制方法。其中，该声音识别控制装置可佩戴在用户的头部，该声音识别控制装置包括但不限于头戴式耳机、头戴式麦克风或者头戴式耳麦，还可以是可与外部其他具有与装置配合使用的设备，以构成一个利用加速度传感器的感测功能的系统，例如，不带麦克风或耳机，单纯的语音检测装置、运算用户开始说话的声音振动信息，判别用户开始说话的特征信息，并转化为命令控制信号，由蓝牙无线通讯单元发送到对端的装置，对端可以是桌上式麦克风、手拿式麦克风、含麦克风的音箱、电视、机顶盒、玩具、电话会议系统、对讲机、投影机、手机、音响、录音机、安防设备、计算机、音箱、智能音箱及各种具有声音处理能力的设备，这些设备内部带有无线接收单元和/或内置的麦克风、以及在装置端的多种算法单元和控制单元30，以便在装置与外部设备构成系统时，能够实现利用语音实现特定用户语音对外部设备的语音传送和识别，将装置上的功能完美的复制到系统中。

具体的，如图2所示，该声音识别控制装置可包括：

感测单元10，用于感测用户当前声音振动信息和/或运动行为信息。

可选的，本发明实施例的感测单元10可包括至少一个加速度传感器，其中，至少一个加速度传感器设置于可感测用户声音振动信息和/或运动行为信息的位置，在具体应用中，多个加速度传感器可采用以设定的夹角、如正交或平行等直接接触和/或间接接触地感测用户头部的声音振动信息和运动行为信息。进一步地，本发明实施例所采用的加速度传感器为至少一轴的加速度传感器。即根据产品使用的不同需求，加速度传感器可以采用单轴、两轴、三轴或者多轴，个数可以是一个或多个，摆放的位置也可以是多种，如设定的夹角、正交、平行等，以便得到最佳的感测效果，例如，将带有加速度传感器的耳麦、麦克风等装置佩戴在用户头部(如头顶、额头、耳、眼、嘴、脸颊、下巴和/或颈部、和/或咽喉的至少一处等易于感测到用户说话振动或相关运动信息的位置。也就是说，可安装在头部的任意位置，包括颈部和咽喉部等，越靠近咽喉部，声带振动越明显，越靠近嘴唇，嘴角的肌肉变化感测越明显，如在下巴上，感测讲话产生的动作最明显，此时采用加速度的姿态或动作变化感测最灵敏，通过不同位置，可以取得不同的效果，也方便应用于不同的场合)，在用户讲话时感测用户的声音引起的声音振动信息，以及用户头部和身体运动时的运动行为信息，这些信息通过加速度传感器的感测得到感测相应的感测信号。当前声音振动信息可以为声带振动信息和/或用户说话而引起面部肌肉、骨骼、关节或者皮肤所产生的运动信息。当前运动行为信息可以为头部的姿态变化动作信息或身体运动的动作信息。

进一步地，该感测单元10包括至少一轴的模拟加速度传感器，此时运算处理单元20包括用于读取至少一轴模拟加速度传感器感测的当前声音振动信息和/或运动行为信息的A/D读取单元；该A/D读取单元的分辨率为10bit～16bit。或者，感测单元10包括至少一轴数字加速度传感器，数字加速度传感器内设有低通滤波器或者不设置低通滤波器，且该数字加速度传感器的分辨率为10bit～16bit。

作为选择，本发明实施例的加速度传感器可以为模拟或数据加速度传感器。若采用模拟加速度传感器，则可由运算处理单元20使用采样率为800Hz～1.6KHz、分辨率为10bit～16bit的A/D读取单元直接读取。若采用数字加速度传感器，则可设置为通过或不通过数字加速度传感器内的低通滤波器而分辨率为10bit～16bit，采样率为800Hz～1.6KHz。

运算处理单元20，还用于将感测到的当前声音振动信息和/或运动行为信息采用预设算法进行运算处理，根据运算处理结果获得与当前声音振动信息对应的特征信息。其中，运算处理单元20可采用蓝牙芯片、单片机中的一种。

作为选择，运算处理单元20可包括：

数据分析提取模块201，用于通过卡尔曼滤波器、离散傅氏变换滤波器、小波滤波器、数字高通滤波器、低通滤波器、带通滤波器、非递归型滤波器、递归型滤波器、中值滤波器、移动窗口滤波器中的任意一种或多种的组合，并采用时域、频域或时频域的方法对当前声音振动信息和/或运动行为信息进行分离和/或提取，获得用户当前声音振动数据和运动行为数据。

运算模块202，用于对当前声音振动数据和/或运动行为数据进行运算处理，获得特征信息。

语音缓存模块204，用于接收声音接收单元40感测的用户声音信息，并存储当前声音信息的数据。其中，声音接收单元40包括但不限于麦克风。

参考比较模块205，用于将当前声音信息的数据作为参考数据，以对当前声音振动数据和/或运动行为数据进行比较运算，获得特征信息。

获取模块206包括获取模块A和获取模块B。获取模块A用于获取播放的声音信息、用户原始声音信息、获取模块B用于获取外部设备的工作状态信息、通过传感器实现声音识别控制装置的软硬件的当前使用状态信息。

信息分析处理模块207，用于将播放的声音信息、用户原始声音信息、以及当前声音振动信息采用预设算法进行运算处理，获得特征信息。

预选模块208，用于基于工作状态信息、当前使用状态信息、以及感测单元的预存数据或者运算处理结果自动调整预设算法的参数或者装置的工作模式。

降频模块203，用于对运动行为数据进行降频处理、数据抽取，以获得用户的人体动作数据。

控制单元30，用于根据特征信息输出命令控制信号。运算处理单元20获得用户开始说话的特征信息后，传递给控制单元30，由控制单元30根据该特征信息产生命令控制信号以进行各类控制。例如，该声音识别装置设有麦克风，则控制单元30根据用户开始说话的特征信息，可产生命令控制信号控制麦克风的打开或关闭。如，用于用户自己正在使用的麦克风打开，讲话完毕后，关断麦克风对外的送音功能，减少了用户环境噪音对外送单的不良应用体验。又或者，该声音识别装置没有麦克风，当控制单元30获得用户开始说话的特征信息后，根据该特征信息可产生命令控制信号，并将命令控制信号通过内置于装置中的通信模块发送给外部设备(如麦克风)，进而通过访命令控制信号控制外部设备打开或关闭。其中，通信模块可以为蓝牙通信模块等。

该声音识别控制装置还包括麦克风和/或喇叭。

在具体的应用中，如果感测单元10包括一个加速度传感器，装置内部包含有麦克风和耳机喇叭，此时装置内部的所有功能单元均集成在电路板上。或者也可以分为两部分，两个加速度传感器分别安装在两个耳机的耳塞中，麦克风可以单独引出到嘴边。加速度传感器在耳塞中固定在耳道中，当用户说话时，感测单元10中的加速度传感器通过耳道感测到喉咙声带发声时产生的振动，以及头部和身体的运动得到感测数据，并将感测数据传送到运算处理单元20，经过运算处理单元20运算得到声音振动数据和运动数据，并在滤除运动数据后通过算法运算判断得到用户开始说话的特征信息，再用户开始说话的特征信息传递给控制单元30，控制单元30也可以包括蓝牙芯片的一部分结构，比如输入输出脚，直接控制麦克风的语音通断，检测到用户开始说话，就打开麦克风，让语音送出去，检测到用户停止讲话，就及时关断麦克风，避免环境噪音传出去；还可以检测到用户说话时，关闭耳机播放音乐，方便用户接电话或与外部人员沟通，还能通过蓝牙无线收发单元将控制命令发送到具有接收控制功能的麦克风话筒，控制话筒的通断，还能直接用命令代替对讲机上的切换开关，实现自动切换。

进一步地，在装置上还可以通过一些辅助手段来提高装置的性能，例如，通过在耳麦、麦克风产品外壳内、外壳外和/或麦克风本体上的配重、质量、重心、材质、截面、表面处理、在声音振波传递路径上用贴、附、沾、黏、触、镀、涂于产品上，并采用不同材质、不同柔软度材料(如橡胶、硅胶、弹簧、陶瓷、塑料等)吸收、阻断、强化、反射声波的振动传播特性和/或共振特性，用以突显或控制作用于加速度传感器上的x，y，z不同轴向的正交、平行或特定倾斜角度的声音振动感测灵敏度。

本发明的声音识别控制装置设置了可对用户的声音振动和运动行为进行感测加速度传感器，并被固定于人耳和/或其它可检测到用户说话声音振动部位上，该声音识别控制装置内含1个或多个模拟或数字加速度传感器并设置采样率800hz～1.6khz，分辨率10bit～16bit，以特定轴向正交、平行或特定角度安装，和/或麦克风、和/或喇叭、电池、外壳、满足处理有线和/或无线通信，语音数据处理及识别用户声音功能相关算法的芯片。在一些实施例中，用户不说话时加速度传感器感测不到声音振动，设备上麦克风所收到的声音被阻挡不会送出。进一步地，用户身体的动作行为仍会被加速度传感器感测到产生误触发，让环境噪声被放行通过,而本发明的声音识别控制装置内置的芯片内的算法利用数字滤波器,能量分析和/或曲线拟合将加速度传感器上感测到的动作行为信息数据予以排除过滤。在其他一些实施例中，若该声音识别控制装置带有麦克风，则可以再利用麦克风所获取的声音信息及利用麦克风无法感测到用户动作的特性，做二度把关更大范围的筛选排除用户行为动作所产生的误触发。芯片在获取到加速度传感器的感测数据后进行计算，需要在一定时间后才能计算出结果并决定是否将麦克风上获取到的声音放行，这会造成在实时说话的用户声音被部分的遮挡，影响体验及后端做语音识别处理的精确度,某些低端的应用能够接受，但本发明通过采用设置语音缓存模块204，对麦克风拾取的声音进行缓存以牺牲一定的实时性解决了这个问题。在某些有喇叭的设备，在播放音乐或双向通话的场景下，会不断让加速度传感器感测到振动信息，造成声音识别功能失效，本发明阻断耳麦、麦克风内喇叭和/或瞬间降低音量至用户无法感知到的条件下、以改变喇叭发声有无或强度的方法实现。通过该方式可以解决在播放音乐和/或双向通话或装置中语音提示时因喇叭播放声音所产生声音振动干扰了加速度传感器的识别判断的功能。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种声音识别控制方法，应用于声音识别控制装置，其特征在于，所述方法包括：

根据所述特征信息输出命令控制信号。

2.根据权利要求1所述的声音识别控制方法，其特征在于，所述将感测到的当前声音振动信息和运动行为信息采用预设算法进行运算处理的步骤包括：

3.根据权利要求2所述的声音识别控制方法，其特征在于，所述采用时域、频域或时频域的方法对所述当前声音振动信息和/或运动行为信息进行分离和/或提取的步骤包括：

4.根据权利要求2所述的声音识别控制方法，其特征在于，所述对所述当前声音振动数据和/或运动行为数据进行运算处理的步骤包括：

5.根据权利要求1所述的声音识别控制方法，其特征在于，所述当前声音振动信息包括：声带振动信息和/或用户说话而引起面部肌肉、骨骼、关节或者皮肤所产生的运动信息；

6.根据权利要求2所述的声音识别控制方法，其特征在于，所述方法还包括：

判断是否接收到声音接收单元感测到用户原始声音信息；

若是，存储所述用户原始声音信息的数据。

7.根据权利要求6所述的声音识别控制方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的声音识别控制方法，其特征在于，所述方法还包括：

判断是否在播放声音信息；

若是，则存储、切断或降低所述播放声音信息。

9.根据权利要求1所述的声音识别控制方法，其特征在于，所述方法还包括：

获取播放的声音信息、用户原始声音信息；

10.根据权利要求1-9任一项所述的声音识别控制方法，其特征在于，所述方法还包括：

11.根据权利要求2声音识别控制方法，其特征在于，所述方法还包括：

12.根据权利要求1所述的声音识别控制方法，其特征在于，所述感测单元包括至少两个加速度传感器，所述至少两个加速度传感器以不同的位置、角度或者方向设置在所述声音识别控制装置上；

所述方法还包括：

13.根据权利要求1所述的声音识别控制方法，其特征在于，

所述感测单元包括多轴加速度传感器；

所述方法还包括：

14.根据权利要求13所述的声音识别控制方法，其特征在于，所述方法还包括：通过在所述声音识别控制装置的外壳内、外和/或本体上的配重、质量、重心、材质、截面、表面处理，并在声音振动波传递路径上采用贴、附、沾、黏、触、镀、涂的方式设于所述声音识别控制装置上，并以不同材质、不同柔软度材料吸收、阻断、强化、反射声波的振动传播特性和/或共振特性，以突显或控制所述加速度传感器的不同轴的轴向的正交、平行或设定倾斜角度的声音振动感测灵敏度。

15.一种声音识别控制装置，所述装置佩戴在用户的头部，其特征在于，包括：

控制单元，用于根据所述特征信息输出命令控制信号。

16.根据权利要求15所述的声音识别控制装置，其特征在于，所述感测单元包括至少一轴的模拟加速度传感器；

17.根据权利要求15所述的声音识别控制装置，其特征在于，所述感测单元包括至少一个加速度传感器，其中，所述至少一个加速度传感器设置于可感测用户声音振动信息和/或运动行为信息的位置。

18.根据权利要求15所述的声音识别控制装置，其特征在于，所述感测单元包括至少两个加速度传感器；

19.根据权利要求15所述的声音识别控制装置，其特征在于，所述感测单元包括多轴加速度传感器；

20.根据权利要求16所述的声音识别控制装置，其特征在于，所述运算处理单元还包括：

21.根据权利要求20所述的声音识别控制装置，其特征在于，所述运算处理单元还包括：

22.根据权利要求20所述的声音识别控制装置，其特征在于，所述运算处理单元还包括：

获取模块A，用于获取播放的声音信息、用户原始声音信息；

23.根据权利要求22所述的声音识别控制装置，其特征在于，所运算处理单元还包括：

24.根据权利要求15所述的声音识别控制装置，其特征在于，所述运算处理单元还包括：

25.根据权利要求15所述的声音识别控制装置，其特征在于，所述装置为头戴式耳机、头戴式麦克风或者头戴式耳麦、或者头戴式简易感测装置。

26.根据权利要求15所述的声音识别控制装置，其特征在于，所述装置还包括麦克风和/或喇叭。