CN117015978A

CN117015978A - 耳机控制方法、耳机、装置及存储介质

Info

Publication number: CN117015978A
Application number: CN202280021301.5A
Authority: CN
Inventors: 张立斌; 刘畅
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-11-07
Also published as: WO2023159582A1

Abstract

本申请实施例提供一种耳机控制方法、耳机、装置及存储介质。该方法包括：采集环境信息，并根据所述环境信息确定关键音检测灵敏度；根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。耳机通过采集环境信息，并根据所述环境信息确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于环境信息确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

Description

耳机控制方法、耳机、装置及存储介质

技术领域

本申请涉及耳机技术领域，尤其涉及一种耳机控制方法、耳机、装置及存储介质。

背景技术

很多场景下，用户希望带上耳机可以沉浸在音乐/通话中，不希望被周围的环境声干扰，耳机的降噪功能可以实现这种体验。然而带上耳机，很多时候用户还需要关注外界的声音。比如公交、地铁等交通工具的报站、过马路时需要注意汽车鸣笛等。这个时候，耳机的通透模式或者透明聆听功能就非常有用。如果用户希望听到周围的环境声，只要切换到通透模式，这时耳机会让外界环境声进入，并降低降噪效果。

目前，Solo Pro是苹果公司的头戴式耳机，用户可以选择以下聆听模式：降噪：无论是否在听音乐，使用这个模式都可以打开消噪功能，隔绝您周围的所有声音。通透模式：Solo Pro头戴式耳机可以放大外部噪音，因此，用户在聆听音乐的时候仍然能够了解周围发生的事情。关闭：降噪和通透模式都处于关闭状态，只使用耳罩来隔音。用户可以打开“控制中心”，通过轻点并按住头戴式耳机的音量按钮，或者按下左耳罩上的模式按钮，即可在降噪和通透模式之间进行切换。然而，其需要用户自行判断切换的时机并进行手动操控，用户体验不佳。

而sony WH-1000XM4耳机运行的系统在检测到关键信息(如人声、关键音等)时，则将主动降噪模式切换成通透模式。例如在Speak-to-Chat中说出特定词，如“打扰一下”，则耳机会识别用户的声音并自动停止音乐，让环境声进入，以便用户进行对话。

然而，该耳机系统自动切换方式对于任何满足切换条件的场景下，切换模式的灵敏度均相同，这样会导致某些场景下对关键信息的检测精度下降，进一步导致用户体验不佳。

发明内容

本申请公开了一种耳机控制方法、耳机、装置及存储介质，可以实现不同场景对关键信息的检测精度不同。

第一方面，本申请实施例提供一种耳机控制方法，包括：

采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

本申请实施例，耳机通过采集环境信息，并根据所述环境信息确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于环境信息确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第一种可选的实现方式，所述环境信息包括用户当前的位置，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

获取与所述用户当前的位置对应的道路的限速参数；

若所述道路的限速参数指示行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。

本申请实施例，耳机通过获取用户当前的位置，并获取与用户当前的位置对应的道路的限速参数，基于该道路的限速参数确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于用户当前的位置对应的道路的限速参数确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据道路限速自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第二种可选的实现方式，所述环境信息包括用户当前所处道路的限速参数，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

本申请实施例，耳机通过直接获取用户当前所处道路的限速参数，基于该道路的限速参数确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于用户当前的位置对应的道路的限速参数确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据道路限速自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第三种可选的实现方式，所述环境信息包括鸣笛声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

若所述鸣笛声为第一预设车辆的鸣笛声，则所述关键音检测灵敏度为第一数值。

本申请实施例，耳机通过直接获取环境中的鸣笛声，基于该鸣笛声确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于鸣笛声确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据鸣笛声自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第四种可选的实现方式，所述环境信息包括环境声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

根据所述环境声确定声源位置；

确定所述声源位置与用户之间的距离；

若所述距离小于第二预设值，则所述关键音检测灵敏度为第一数值。

本申请实施例，耳机通过直接获取环境声，基于环境声与用户之间的距离远近确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于环境声与用户之间的距离确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据距离远近自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第五种可选的实现方式，所述环境信息包括第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

根据所述第一环境声和第二环境声分别确定声源的第一位置和第二位置；

根据所述声源的第一位置、第二位置以及所述预设时间间隔，确定所述声源的移动速度；

若所述移动速度超出第三预设值，则所述关键音检测灵敏度为第一数值。

本申请实施例，耳机通过多次获取环境声，进而确定声源的移动速度，基于声源的移动速度确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于声源的移动速度确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据声源的移动速度自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

作为第六种可选的实现方式，所述环境信息包括环境声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

获取所述环境声中的语音信号，并对所述语音信号进行分割；

对所述分割后的语音信号进行聚类处理，以确定讲话的人数；

若所述人数超出第四预设值，则所述关键音检测灵敏度为第二数值。

本申请实施例，耳机通过获取环境声中的语音信号，基于该语音信号确定讲话的人数，基于讲话的人数来确定关键音检测灵敏度，然后根据所述关键音检测灵敏度对环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于讲话的人数确定与该环境信息对应的关键音检测灵敏度，以进行关键音检测。采用该手段，可以根据讲话的人数自适应调整音频播放的时延，实现在不同的场景下，关键音的检测灵敏度不同，进而可以提高用户体验。

第二方面，本申请实施例提供一种耳机控制方法，包括：

将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

本申请实施例，基于确定的关键音检测灵敏度对采集的环境信息中的关键音进行检测；若存在关键音，将耳机调整为通透模式，或者，播放该关键音。该方案基于手动调整的关键音检测灵敏度来进行关键音检测。采用该手段，基于用户需求调整关键音检测灵敏度，可以提高用户体验。

第三方面，本申请实施例提供一种耳机，包括：

采集模块，用于采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

检测模块，用于根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

处理模块，用于若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

作为一种实现方式，所述环境信息包括用户当前的位置，所述采集模块，用于：

获取与所述用户当前的位置对应的道路的限速参数；

作为另一种实现方式，所述环境信息包括用户当前所处道路的限速参数，所述采集模块，用于：

作为又一种实现方式，所述环境信息包括鸣笛声，所述采集模块，用于：

作为另一种实现方式，所述环境信息包括环境声，所述采集模块，用于：

根据所述环境声确定声源位置；

确定所述声源位置与用户之间的距离；

作为又一种实现方式，所述环境信息包括第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的，所述采集模块，用于：

作为再一种实现方式，所述环境信息包括环境声，所述采集模块，用于：

第四方面，本申请实施例提供一种耳机，包括：

确定模块，用于将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

检测模块，用于采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

第五方面，本申请实施例提供一种耳机控制装置，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。

第七方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。

可以理解地，上述提供的第三方面所述的耳机、第四方面所述的耳机、第五方面所述的耳机控制装置、第六方面所述的计算机可读存储介质或者第七方面所述的计算机程序产品均用于执行第一方面中任一所提供的方法以及第二方面中任一所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1是本申请实施例提供的一种耳机控制应用场景示意图；

图2是本申请实施例提供的一种耳机控制系统的示意图；

图3是本申请实施例提供的一种耳机控制方法的流程示意图；

图4是本申请实施例提供的另一种耳机控制方法的流程示意图；

图5是本申请实施例提供的一种耳机控制方法的流程示意图；

图6是本申请实施例提供的一种耳机控制方法的流程示意图；

图7是本申请实施例提供的一种耳机控制方法的流程示意图；

图8是本申请实施例提供的一种耳机控制方法的流程示意图；

图9是本申请实施例提供的一种耳机控制方法的流程示意图；

图10是本申请实施例提供的一种耳机控制方法的流程示意图；

图11是本申请实施例提供的一种耳机的结构示意图；

图12是本申请实施例提供的另一种耳机的结构示意图；

图13是本申请实施例提供的一种耳机控制装置的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

需要说明的是，本申请实施例中的关键音检测灵敏度，可以是指关键音检测时长，其还可以是指其他物理参数，例如可以是关键音检测出来至模式切换的周期等，本方案对此不做具体限定。

参照图1所示，为本申请实施例提供的一种耳机控制应用场景示意图。如图1所示，耳机工作在降噪模式下，耳机可基于用户所处环境等确定关键音检测灵敏度，然后基于该关键音检测灵敏度对环境音进行检测。当耳机检测到关键信息(例如人声、警报、报站、鸣笛等关键音等)，则耳机将降噪模式切换为通透模式。

该示意图仅以通透模式为例进行说明，其还可以是对关键音进行播放等，本方案对此不做具体限定。

本申请实施例中的耳机可以是头戴式耳机、入耳式耳机或者其他具备音频采集和播放功能的设备(例如AR眼镜、VR眼镜、智能眼镜等)。上述耳机可以独立工作，也可以通过无线或有线连接终端设备(例如手机、平板、智能眼镜等)工作。本方案对此不做具体限定。

参照图2所示，为本申请实施例提供的一种耳机控制系统的示意图。如图2所示，该耳机包括信息采集模块201、处理模块202和控制模块203。

其中，信息采集模块201可以是麦克风等语音信号传感器，用于采集环境中的音频信号；信息采集模块201也可以是GPS等定位传感器，用于采集用户当前位置信息；信息采集模块201还可以是图像传感器，用于采集环境图像。当然其还可以是其他传感器等，本方案对此不做具体限定。

所述信息采集模块201可以位于耳机中，也可以位于与耳机连接的终端设备中等。

处理模块202，用于处理信息采集模块201采集的信息。例如，根据信息采集模块201采集的环境信息确定关键音检测灵敏度，并根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测。该处理模块202可以位于耳机中，也可以位于与耳机连接的终端设备中等，本方案对此不做具体限定。

控制模块203，用于根据处理模块202的结果控制耳机，例如当检测到关键音，将耳机从降噪模式切换为通透模式，或者对关键音进行播放等。其中，该控制模块可以位于耳机中。

参照图3所示，为本申请实施例提供的一种耳机控制方法的流程示意图。如图3所示，该方法包括301-303，具体如下：

301、采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

该环境信息例如可以是音频信号、用户所处位置、图像等，本方案对此不做具体限定。

耳机通过采集环境信息，并基于环境信息确定关键音检测灵敏度。

其中，耳机通过采集环境信息，可以检测出用户场景，并基于用户场景来调整关键音检测灵敏度。

例如，采集到的音频信号距离用户较远，表明该音频与用户的相关度不大，可降低关键音检测灵敏度。

上述关键音检测灵敏度，例如可以是每10ms、30ms出一次检测结果，或者每50ms出一次检测结果等，本方案对此不做具体限定。其还可以是关键音检测出来至模式切换的周期等，本方案对此不做具体限定。

302、根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

基于上述确定的关键音检测灵敏度，对所述环境信息中的关键音进行检测。

作为一种实现方式，通过模型训练基本检测算法，如每10ms(基本帧)就可以出一次检测结果。具体地，支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。因此，可采用SVM技术。或者，也可以采用随机森林技术，随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。

作为另一种实现方式，如果关键音检测灵敏度较低，即延迟检测，则可以将多个基本帧的结果联合检测，如在设置的时间段内(如M＝30ms或者50ms)，超过一半(如N＝M/2)的检测帧都是关键音，则认为本时间段检测结果为关键音，输出关键音检测成功标志。

具体地，首先进行预处理：

将采集的音频信号进行分帧，加窗，逐帧进行快速傅立叶变换FFT变换，即短时傅里叶变换STFT计算。使用海宁窗，帧长与FFT的长度均是512，帧移160(10ms)，检测时计算一次可以得到一帧信号的FFT幅度谱用于后续特征计算。

然后进行特征参数提取：

根据预处理得到的对应帧的幅度谱，计算对数梅尔频谱特征。

处理流程如下：

(1)设置梅尔频谱范围(300至6000Hz)，取48维梅尔频谱，计算基于512点FFT的梅尔加权系数矩阵W；

(2)根据预处理阶段得到的STFT矩阵S，计算W·S得到对应帧的特征，并加上偏置1e-5后取对数，得到对数梅尔谱48维向量。

分类器：

根据计算得到的特征参数，进行是否为关键音的分类判决。

具体处理流程如下：

基于SVM算法

SVM即支持向量机，可采用线性核进行分类，由于其极小的运算量优势，可以作为前置的分类器或训练多个分类器联合判决。线性核函数SVM的决策函数为：

依据对输入特征x计算得到的预测值f(x)是否为1判断是否为关键音。可以分析得到对于输入为48维的特征向量的情况时，线性SVM分类器判决仅需48次乘法与48次加法。参数a _i与b通过选取部分训练数据训练而得。

将48维的特征向量输入到上述公式中，计算最终的预测值，如果预测值大于0，则认为是关键音；若预测值小于0，则认为不是关键音。

基于随机森林算法

1.将训练数据中的Z个样本有放回的随机选择Z个样本(每次随机选择一个样本，然后返回继续选择)。这选择好了的Z个样本用来训练一个决策树，作为决策树根节点处的样本。

2.每个样本有48维特征，在决策树的每个节点需要分裂时，随机从这48维特征中选取出6维特征。然后从这6维特征中采用某种策略(如信息增益)来选择1维特征作为该节点的分裂属性。

3.决策树形成过程中每个节点都要按照步骤2来分裂(如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了)。一直到不能够再分裂为止。其中，整个决策树形成过程中没有进行剪枝。

4.按照步骤1～3建立大量的决策树，这样就构成了随机森林。

将48维的特征向量输入到构成的随机森林中，进行判别，最终会得到一个概率值，定义一个阈值，如果这个值大于阈值，则认为是关键音，否则不是关键音。

303、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

如果检测出关键音，则耳机的控制模块将降噪模式切换为通透模式，以便降低耳机内的播放声音，有助于用户听到环境中的关键音。

或者，如果检测出关键音，则耳机的控制模块控制播放所述关键音，以便用户听清楚环境中的关键音。可选的，此时耳机中原来播放的内容停止播放，或者降低原来播放的声音等均可。

参照图4所示，为本申请实施例提供的另一种耳机控制方法的流程示意图。如图4所示，该方法包括401-404，具体如下：

401、获取用户当前的位置，并获取与所述用户当前的位置对应的道路的限速参数；

例如，耳机通过信息采集模块的定位传感器(例如GPS等)采集用户当前位置信息，进而可通过地图查询当前道路的限速信息。

402、根据所述道路的限速参数确定关键音检测灵敏度；

其中，若所述道路的限速参数指示行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。

若所述道路的限速参数指示行驶速度小于第一预设值，则所述关键音检测灵敏度为第二数值。

具体地，若限速高，可能是高速公路，则可以提升检测灵敏度(如每30ms出一次检测结果)；如果限速低，可能是城市道路，则可以降低检测灵敏度(如每50ms出一次检测结果)。

403、根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

该步骤的实现方式可参阅前述图3所示实施例，在此不再赘述。

404、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图5所示，为本申请实施例提供的另一种耳机控制方法的流程示意图。如图5所示，该方法包括501-504，具体如下：

501、获取用户当前所处道路的限速参数；

例如，耳机通过信息采集模块的图像传感器采集用户当前所处道路的图像，通过对图像进行处理，可获取到交通标志信息，进而可得到当前道路的限速信息。

502、根据所述道路的限速参数确定关键音检测灵敏度；

503、根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

504、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图6所示，为本申请实施例提供的另一种耳机控制方法的流程示意图。如图6所示，该方法包括601-603，具体如下：

601、采集环境中的鸣笛声，并根据所述鸣笛声确定关键音检测灵敏度；

例如，耳机通过信息采集模块的麦克风采集环境中的鸣笛声。

若所述鸣笛声为第一预设车辆的鸣笛声，则所述关键音检测灵敏度为第一数值；若所述鸣笛声为第二预设车辆的鸣笛声，则所述关键音检测灵敏度为第二数值。该第一预设车辆例如可以是警车、消防车或者救护车等，该第二预设车辆例如可以是普通车辆。上述第一数值小于第二数值。

通过将采集的鸣笛声输入预先训练好的SVM或者神经网络模型，可识别警车、消防车、救护车和普通汽车等。例如，如果是警车、消防车或者救护车，则可以提升检测灵敏度(如每10ms出一次检测结果)，如果是普通汽车，则可以降低检测灵敏度(如每30ms出一次检测结果)。上述仅为一种示例，本方案对此不做具体限定。

602、根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

603、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图7所示，为本申请实施例提供的又一种耳机控制方法的流程示意图。如图7所示，该方法包括701-705，具体如下：

701、采集环境声，并根据所述环境声确定声源位置；

例如，耳机通过信息采集模块的麦克风采集环境声。

信息处理模块基于采集的环境声，使用波束形成或者到达时间差(time difference of arrival，TDOA)等方法进行声源定位，获取声源距离。

702、确定所述声源位置与用户之间的距离；

703、根据所述距离确定关键音检测灵敏度；

如果距离近，则可以提升检测灵敏度(如每10ms出一次检测结果)；如果距离远，则可以降低检测灵敏度(如每30ms出一次检测结果)。

704、根据所述关键音检测灵敏度对所述环境声中的关键音进行检测；

705、若所述环境音中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图8所示，为本申请实施例提供的又一种耳机控制方法的流程示意图。如图8所示，该方法包括801-806，具体如下：

801、采集第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的；

例如，耳机基于预设时间间隔通过信息采集模块的麦克风采集环境声。

该实施例仅以两次获取环境声为例进行介绍，其还可以是多次采集等，本方案对此不做具体限定。

802、根据所述第一环境声和第二环境声分别确定声源的第一位置和第二位置；

信息处理模块基于采集的环境声，使用波束形成或者到达时间差(time difference of arrival，TDOA)等方法进行声源定位。

803、根据所述声源的第一位置、第二位置以及所述预设时间间隔，确定所述声源的移动速度；

基于上述声源的第一位置和第二位置之间的距离之差和时间间隔，可以得到声源的移动速度。

804、根据所述声源的移动速度确定关键音检测灵敏度；

如果速度快，则可以提升检测灵敏度(如每10ms出一次检测结果)；如果车速慢，则可以降低检测灵敏度(如每30ms出一次检测结果)。

805、根据所述关键音检测灵敏度对所述环境声中的关键音进行检测；

806、若所述环境音中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图9所示，为本申请实施例提供的又一种耳机控制方法的流程示意图。如图9所示，该方法包括901-905，具体如下：

901、采集环境声，并获取所述环境声中的语音信号；

例如，耳机通过信息采集模块的麦克风采集环境声。

902、对所述语音信号进行分割，并对所述分割后的语音信号进行聚类处理，以确定讲话的人数；

通过对环境声中的语音信号进行分割，以达到对说话人对应的语音进行分割，再对分割后的各段语音信号基于贝叶斯信息准则进行聚类，最终确定说话人数目。

903、根据所述讲话的人数确定关键音检测灵敏度；

如果说话人数多，说明安全性高，则可以降低检测灵敏度(如每30ms出一次检测结果)；如果说话人数少，说明安全性低，则可以提升检测灵敏度(如每10ms出一次检测结果)。

904、根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

905、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图10所示，本申请实施例还提供一种耳机控制方法的流程示意图。如图10所示，该方法包括1001-1003，具体如下：

1001、将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

也就是说，该方案基于手动设置关键音检测灵敏度。

具体地，关键音检测灵敏度可表示为M*x，如果提升关键音检测灵敏度，则将M的乘数因子x减小；如果降低关键音检测灵敏度，则将M的乘数因子x增大，例如x的范围在0.5～1之间。

具体地，M可以为30ms、50ms等。

进一步地，关键音检测灵敏度可表示为N*y，如果提升关键音检测灵敏度，还可以将N的乘数因子y减小；如果降低关键音检测灵敏度，则将N的乘数因子y增大，例如y的范围在0.5～1之间。

具体地，N可以为M/2。当然，该表示仅为一种示例，其还可以是其他形式，本方案对此不做具体限定。

其中，M不小于N，且M、N均不小于1。

1002、采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

该环境信息可以上述实施例中的音频信号、用户所处位置、图像等，本方案对此不做具体限定。

1003、若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

参照图11所示，为本申请实施例提供的一种耳机的结构示意图。如图11所示，该耳机可包括采集模块1101、检测模块1102和处理模块1103，其中：

采集模块1101，用于采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

检测模块1102，用于根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

处理模块1103，用于若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

作为一种实现方式，所述环境信息包括用户当前的位置，所述采集模块1101，用于：

获取与所述用户当前的位置对应的道路的限速参数；

作为另一种实现方式，所述环境信息包括用户当前所处道路的限速参数，所述采集模块1101，用于：

作为又一种实现方式，所述环境信息包括鸣笛声，所述采集模块1101，用于：

作为另一种实现方式，所述环境信息包括环境声，所述采集模块1101，用于：

根据所述环境声确定声源位置；

确定所述声源位置与用户之间的距离；

作为又一种实现方式，所述环境信息包括第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的，所述采集模块1101，用于：

作为再一种实现方式，所述环境信息包括环境声，所述采集模块1101，用于：

参照图12所示，为本申请实施例提供的另一种耳机的结构示意图。如图12所示，该耳机可包括确定模块1201、检测模块1202和处理模块1203，其中：

确定模块1201，用于将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

检测模块1202，用于采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

处理模块1203，用于若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。

值得指出的是，其中，耳机的具体功能实现方式可以参见上述耳机控制方法的描述，这里不再进行赘述。耳机中的各个单元或模块可以分别或全部合并为一个或若干个另外的单元或模块来构成，或者其中的某个(些)单元或模块还可以再拆分为功能上更小的多个单元或模块来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元或模块是基于逻辑功能划分的，在实际应用中，一个单元(或模块)的功能也可以由多个单元(或模块)来实现，或者多个单元(或模块)的功能由一个单元(或模块)实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种耳机控制装置。请参见图13，是本发明实施例提供的一种耳机控制装置的结构示意图。图13所示的耳机控制装置1300(该装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。

存储器1301可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。

存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的耳机控制方法的各个步骤。

处理器1302可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的耳机控制装置中的单元所需执行的功能，或者执行本申请方法实施例的耳机控制方法。

处理器1302还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的耳机控制方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1302读取存储器1301中的信息，结合其硬件完成本申请实施例的耳机控制装置中包括的单元所需执行的功能，或者执行本申请方法实施例的耳机控制方法。

通信接口1303使用例如但不限于收发器一类的收发装置，来实现装置1300与其他设备或通信网络之间的通信。例如，可以通过通信接口1303获取数据。

总线1304可包括在装置1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

应注意，尽管图13所示的装置1300仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1300还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1300还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1300也可仅仅包括实现本申请实施例所必须的器件，而不必包括图13中所示的全部器件。

本申请实施例还提供了一种驱动芯片，所述驱动芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以实现所述的耳机控制方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行所述的耳机控制方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本领域技术人员能够领会，结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包括任何促进将计算机程序从一处传送到另一处的媒体(例如，基于通信协议)的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且，任何连接被恰当地称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是，应理解，所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或者并入在组合编解码器中。而且，所述技术可完全实施于一或多个电路或逻辑元件中。

本申请的技术可在各种各样的装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面，但未必需要由不同硬件单元实现。实际上，如上文所描述，各种单元可结合合适的软件和/或固件组合在编码硬件单元中，或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应步骤过程的具体描述，在此不再赘述。

应理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；其中A，B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-only memory，ROM)，或随机存取存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种耳机控制方法，其特征在于，包括：

采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。
根据权利要求1所述的方法，其特征在于，所述环境信息包括用户当前的位置，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

获取与所述用户当前的位置对应的道路的限速参数，并根据所述道路的限速参数确定所述限速参数指示的行驶速度；

若所述道路的限速参数指示的行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求1所述的方法，其特征在于，所述环境信息包括用户当前所处道路的限速参数，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

根据所述道路的限速参数确定所述限速参数指示的行驶速度；

若所述道路的限速参数指示的行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求1所述的方法，其特征在于，所述环境信息包括鸣笛声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

若所述鸣笛声为第一预设车辆的鸣笛声，则所述关键音检测灵敏度为第一数值。
根据权利要求1所述的方法，其特征在于，所述环境信息包括环境声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

根据所述环境声确定声源位置；

确定所述声源位置与用户之间的距离；

若所述距离小于第二预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求1所述的方法，其特征在于，所述环境信息包括第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

根据所述第一环境声和第二环境声分别确定声源的第一位置和第二位置；

根据所述声源的第一位置、第二位置以及所述预设时间间隔，确定所述声源的移动速度；

若所述移动速度超出第三预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求1所述的方法，其特征在于，所述环境信息包括环境声，所述根据所述采集到的环境信息确定关键音检测灵敏度，包括：

获取所述环境声中的语音信号，并对所述语音信号进行分割；

对所述分割后的语音信号进行聚类处理，以确定讲话的人数；

若所述人数超出第四预设值，则所述关键音检测灵敏度为第二数值。
一种耳机控制方法，其特征在于，包括：

将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。
一种耳机，其特征在于，包括：

采集模块，用于采集环境信息，并根据所述环境信息确定关键音检测灵敏度；

检测模块，用于根据所述关键音检测灵敏度对所述环境信息中的关键音进行检测；

处理模块，用于若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括用户当前的位置，所述采集模块，用于：

获取与所述用户当前的位置对应的道路的限速参数，并根据所述道路的限速参数确定所述限速参数指示的行驶速度；

若所述道路的限速参数指示的行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括用户当前所处道路的限速参数，所述采集模块，用于：

根据所述道路的限速参数确定所述限速参数指示的行驶速度；

若所述道路的限速参数指示的行驶速度超出第一预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括鸣笛声，所述采集模块，用于：

若所述鸣笛声为第一预设车辆的鸣笛声，则所述关键音检测灵敏度为第一数值。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括环境声，所述采集模块，用于：

根据所述环境声确定声源位置；

确定所述声源位置与用户之间的距离；

若所述距离小于第二预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括第一环境声和第二环境声，所述第一环境声和第二环境声是基于预设时间间隔获取到的，所述采集模块，用于：

根据所述第一环境声和第二环境声分别确定声源的第一位置和第二位置；

根据所述声源的第一位置、第二位置以及所述预设时间间隔，确定所述声源的移动速度；

若所述移动速度超出第三预设值，则所述关键音检测灵敏度为第一数值。
根据权利要求9所述的耳机，其特征在于，所述环境信息包括环境声，所述采集模块，用于：

获取所述环境声中的语音信号，并对所述语音信号进行分割；

对所述分割后的语音信号进行聚类处理，以确定讲话的人数；

若所述人数超出第四预设值，则所述关键音检测灵敏度为第二数值。
一种耳机，其特征在于，包括：

确定模块，用于将耳机的关键音检测灵敏度确定为第一数值，所述第一数值是根据用户发送的提升所述耳机的关键音检测灵敏度的请求确定的；

检测模块，用于采集环境信息，并根据所述第一数值对所述环境信息中的关键音进行检测；

处理模块，用于若所述环境信息中存在关键音，将所述耳机调整为通透模式，或者，播放所述关键音。
一种耳机控制装置，其特征在于，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至7任一项所述的方法和/或如权利要求8所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任一项所述的方法和/或如权利要求8所述的方法。
一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的方法和/或如权利要求8所述的方法。