CN113767431A

CN113767431A - 语音检测

Info

Publication number: CN113767431A
Application number: CN202080031842.7A
Authority: CN
Inventors: J·P·莱索
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2019-05-30
Filing date: 2020-05-26
Publication date: 2021-12-07
Also published as: US20230005470A1; KR20220015427A; GB2596752B; US11842725B2; GB2596752A; WO2020240169A1; US20200380955A1; US11488583B2; GB202114745D0

Abstract

为装置的用户提供了一种自身语音检测的方法。使用所述装置的第一传声器检测第一信号，所述第一信号表示空气传导语音。使用所述装置的骨传导传感器检测第二信号，所述第二信号表示骨传导语音。对所述第一信号进行滤波以获得所述第一信号的处于语音清晰度的分量，并对所述第二信号进行滤波以获得所述第二信号的处于所述语音清晰度的分量。将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较，并且如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值，则确定所述语音并非由所述装置的所述用户产生。

Description

语音检测

技术领域

本公开涉及语音检测，并且具体地涉及检测说话者何时是使用装置、例如佩戴诸如耳机之类的可佩戴配件的人员。

发明背景

诸如耳机、智能眼镜和智能手表之类的可佩戴配件是很常见的。存在当检测到语音时希望知道说话的人员是否是佩戴特定配件的人员的情况。例如，当配件与诸如具有语音识别功能的智能电话之类的装置结合使用时，知道检测到的语音是否是佩戴配件的人员说出的是有用的。在这种情况下，佩戴配件的人员说出的语音可以被提供给语音识别功能，使得可以执行任何口头命令，而在一些情况下可以忽略并非由佩戴配件的人员说出的语音。

发明内容

根据本文描述的实施例，提供了一种减少或避免上述一个或多个缺点的方法和系统。

根据本发明的第一方面，提供了一种用于装置的用户的自身语音检测方法，所述方法包括：

使用所述装置的第一传声器检测第一信号，所述第一信号表示空气传导语音；

使用所述装置的骨传导传感器检测第二信号，所述第二信号表示骨传导语音；

对所述第一信号进行滤波以获得所述第一信号的处于语音清晰度的分量；

对所述第二信号进行滤波以获得所述第二信号的处于所述语音清晰度的分量；

将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较；以及

如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值，则确定所述语音并非由所述装置的所述用户产生。

根据本发明的第二方面，提供了一种用于装置的用户的自身语音检测的系统，所述系统包括：

输入，所述输入用于从所述装置的第一传声器接收表示空气传导语音的第一信号并从所述装置的骨传导传感器接收表示骨传导语音的第二信号；

至少一个滤波器，所述至少一个滤波器用于对所述第一信号进行滤波以获得所述第一信号的处于语音清晰度的分量并对所述第二信号进行滤波以获得所述第二信号的处于所述语音清晰度的分量；

比较器，所述比较器用于将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较；以及

处理器，所述处理器用于如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值，则确定所述语音并非由所述装置的所述用户产生。

根据本发明的第三方面，提供了一种检测对说话者识别系统的欺骗攻击的方法，所述方法包括：

使用装置的第一传声器检测第一信号，所述第一信号表示空气传导语音；

将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较；

如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值，则确定所述语音并非由所述装置的用户产生；以及

如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的所述差值未超过所述阈值，则对表示语音的所述第一信号执行说话者识别。

根据本发明的第四方面，提供了一种说话者识别系统，其包括：

输入，所述输入用于从装置的第一传声器接收表示空气传导语音的第一信号并从所述装置的骨传导传感器接收表示骨传导语音的第二信号；

比较器，所述比较器用于将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较；

处理器，所述处理器用于如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值，则确定所述语音并非由所述装置的用户产生；以及

说话者识别块，所述说话者识别块用于如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的所述差值未超过所述阈值，则对表示所述语音的所述第一信号执行说话者识别。

附图说明

为了更好地理解本发明并且更清楚地示出可以如何实践本发明，现在仅以示例方式参考附图，在附图中：

图1是电子装置和相关配件的示意图；

图2是电子装置和配件的进一步示意图；

图3是示出一种方法的流程图；

图4示出了可佩戴装置；

图5是示出如本文所述的系统的一部分的框图；

图6是示出图5的系统的一部分的框图；

图7示出了图3的方法中的阶段；

图8进一步示出了图3的方法中的阶段；

图9是示出如本文所述的系统的一种形式的框图；

图10示出了图9的系统的使用中的阶段；

图11示出了图9的系统的使用中的阶段；

图12是示出如本文所述的系统的替代形式的框图；以及

图13是示出如本文所述的系统的替代形式的框图。

具体实施方式

以下描述陈述了根据本公开的示例性实施例。其他示例性实施例和实施方式对于本领域普通技术人员来说将显而易见。此外，本领域普通技术人员将认识到，可以代替或结合下文讨论的实施例来应用各种等效技术，并且所有此类等同物将被视为由本公开所涵盖。

为了清楚起见，在这里将注意，本说明书是指说话者识别和语音识别，它们旨在具有不同的含义。说话者识别是指一种提供关于说话人员的身份的信息的技术。例如，说话者识别可以从一组先前注册的个体中确定说话者的身份，或者可以提供指示说话者是否是特定个体的信息以用于标识或认证的目的。语音识别是指一种用于确定所说内容和/或含义而非识别说话人员的技术。

图1示出了根据本发明的一方面的装置。所述装置可以是任何合适类型的装置，诸如移动计算装置(例如膝上型或平板计算机)、游戏机、遥控装置、包括家庭温度或照明控制系统的家庭自动化控制器或家用电器、玩具、诸如机器人之类的机器、音频播放器、视频播放器等，但是在该说明性示例中，所述装置是移动电话，并且具体是具有用于检测声音的传声器12的智能电话10。智能电话10可以通过合适的软件用作控制任何其他另外的装置或系统的控制界面。

图1还示出了配件，在这种情况下是无线耳机30，在该示例中其采用入耳式耳机或耳塞式耳机的形式。耳机30可以是一副耳机中的一者或头戴式耳机的一部分，或者可以单独使用。示出了无线耳机30，但是同样可以使用与装置有线连接的耳机。配件可以是可以由人员佩戴并与所述装置结合使用的任何合适的装置。例如，配件可以是智能手表或一副智能眼镜。

图2是示出智能电话10和无线耳机30的形式的示意图。

具体地，图2示出了智能电话10和无线耳机30的各种互连部件。应当理解，智能电话10和无线耳机30实际上将包含许多其他部件，但是以下描述对于理解本发明而言已经足够了。另外，应当理解，与图2中所示的部件类似的部件可以包括在任何合适的装置和任何合适的可佩戴配件中。

因此，图2示出了智能电话10包括上述传声器12。

图2还示出了存储器14，其实际上可以作为单个部件或多个部件提供。存储器14被提供用于存储数据和程序指令。

图2还示出了配件16，其实际上再次可以作为单个部件或多个部件提供。例如，处理器16的一个部件可以是智能电话10的应用程序处理器。

因此，存储器14可以充当存储代码的有形计算机可读介质，所述代码用于使处理器16执行如下所述的方法。

图2还示出了收发器18，其被提供用于允许智能电话10与外部网络进行通信。例如，收发器18可以包括用于通过WiFi局域网或通过蜂窝网络建立互联网连接的电路。

另外，收发器18允许智能电话10例如使用蓝牙或另一种短程无线通信协议与无线耳机30进行通信。

图2还示出了音频处理电路20以用于根据需要对由传声器12检测到的音频信号执行操作。例如，音频处理电路20可以对音频信号进行滤波或执行其他信号处理操作。

图2示出无线耳机30包括收发器32，其允许无线耳机30例如使用蓝牙或另一种短程无线通信协议与智能电话10进行通信。

图2还示出了无线耳机30包括第一传感器34和第二传感器36，这将在下面更详细地描述。响应于外部刺激而由第一传感器34和第二传感器36生成的信号通过收发器32传输到智能电话10。

因此，在该所示实施例中，信号由配件上的传感器生成，并且这些信号被传输到主机装置，在所述主机装置中处理所述信号。在其他实施例中，在配件本身上处理信号。

在该实施例中，智能电话10被设置有说话者识别功能和控制功能。因此，智能电话10能够响应于来自登记用户的口头命令而执行各种功能。说话者识别功能能够区分来自登记用户的口头命令和由不同人员说出的相同命令。因此，本发明的某些实施例涉及具有某种语音可操作性的智能电话或另一种便携式电子装置(例如平板计算机或膝上型计算机、游戏机、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等)的操作，其中在旨在执行口头命令的装置中执行说话者识别功能。某些其他实施例涉及其中对智能电话或其他装置执行说话者识别功能的系统，如果说话者识别功能能够确认说话者是登记用户，则所述智能电话或其他装置然后将命令传输到单独的装置。

在一些实施例中，当对智能电话10或靠近用户定位的其他装置执行说话者识别功能时，使用收发器18将口头命令传输到远程语音识别系统，所述远程语音识别系统确定口头命令的含义。例如，语音识别系统可以位于云计算环境中的一个或多个远程服务器上。基于口头命令的含义的信号然后返回到智能电话10或其他本地装置。

当接收到口头命令时，通常需要执行说话者验证过程，以便确认说话者是系统的登记用户。已知通过首先执行登记用户以获得用户语音模型的过程来执行说话者验证。然后，当期望确定特定测试输入是否是所述用户的语音时，通过将测试输入与用户语音模型进行比较来获得第一分数。另外，可以执行分数归一化过程。例如，还可以将测试输入与从多个其他说话者获得的多个语音模型进行比较。这些比较给出了多个群组分数，并且可以获得描述多个群组分数的统计数据。然后可以使用统计数据对第一分数进行归一化以获得归一化分数，并且归一化分数可以用于说话者验证。

在本文所述的实施例中，可以确定检测到的语音是否是佩戴配件30的人员所说的。这被称为“自身语音检测”。如果确定检测到的语音是佩戴配件30的人员所说的，则可以发送语音信号用于说话者识别和/或语音识别。如果确定检测到的语音不是佩戴配件30的人员所说的，则可以判定不应发送语音信号用于说话者识别和/或语音识别。

图3是示出根据本公开的方法、具体是一种用于佩戴可佩戴装置的用户的自身语音检测的方法(即，一种用于检测佩戴可佩戴装置的人员是否是说话人员的方法)的示例的流程图。

本质上可以使用相同的方法来检测手持诸如移动电话之类的手持装置的人员是否是说话人员。

图4在一个实施例中更详细地示出了可佩戴装置的形式。具体地，图4示出了耳机30佩戴在佩戴者的耳道70中。

在该示例中，图2中所示的第一传感器34采用耳外传声器72的形式，即，检测佩戴者的耳朵周围空气中的声学信号的传声器。在该示例中，图2中所示的第二传感器36采用骨传导传感器74的形式。这可以是入耳式传声器，所述入耳式传声器能够检测佩戴者的耳道中的声学信号的，所述声学信号由佩戴者的语音产生并且通过佩戴者头部的骨传输，并且所述入耳式传声器还可能能够检测佩戴者的耳道本身的振动。替代地，骨传导传感器74可以是加速度计，所述加速度计被定位成使得其与佩戴者的耳道接触并且可以检测由佩戴者的语音引起并且通过佩戴者的头部的骨和/或软组织传输的接触振动。

类似地，如果可佩戴装置是一副智能眼镜，则第一传感器可以采用通过空气传导来拾取佩戴者的语音(和其他声音)的外部定向传声器的形式，而第二传感器可以采用加速度计的形式，所述加速度计被定位成与佩戴者的头部接触并且可以检测由佩戴者的语音引起并且通过佩戴者的头部的骨和/或软组织传输的接触振动。

类似地，如果可佩戴装置是智能手表，则第一传感器可以采用通过空气传导来拾取佩戴者的语音(和其他声音)的外部定向传声器的形式，而第二传感器可以采用加速度计的形式，所述加速度计被定位成与佩戴者的手腕接触并且可以检测由佩戴者的语音引起并且通过佩戴者的骨和/或软组织传输的接触振动。

如果所述方法用于检测手持诸如移动电话之类的手持装置的人员是否是说话人员，则第一传感器可以是通过空气传导拾取佩戴者的语音(和其他声音)的传声器12，而第二传感器可以采用被定位在手持装置内(因此在图1中不可见)的加速度计的形式，所述加速度计可以检测由用户的语音引起并通过佩戴者的骨和/或软组织传输的接触振动。当手持装置压靠在用户的头部上时，加速度计可以检测由佩戴者的语音引起并通过用户头部的骨和/或软组织传输的接触振动，而当手持装置没有压靠在用户的头部上时，加速度计可以检测由佩戴者的语音引起并通过用户的手臂和手的骨和/或软组织传输的接触振动。

在图3的步骤50中，所述方法然后包括使用可佩戴装置30的第一传声器72检测表示空气传导语音的第一信号。即，当佩戴者说话时，声音离开他们的嘴部并在空气中传播，并且可以被传声器72检测到。

在图3的步骤52中，所述方法还包括使用可佩戴装置30的骨传导传感器74检测表示骨传导语音的第二信号。即，当佩戴者说话时，振动通过他们的头部的骨传导(和/或至少在一定程度上可以通过周围软组织传导)，并且可以被骨传导传感器74检测到。

原则上，可以通过将由传声器72和骨传导传感器74生成的信号进行比较来实现自身语音检测过程。

然而，由于典型的骨传导传感器74是基于加速度计，并且加速度计通常以例如低采样率(在100Hz–1kHz的范围内)运行，因此由骨传导传感器74生成的信号具有受限频率范围。另外，典型的骨传导传感器易于拾取接触噪声(例如由佩戴者的头部转动或由与其他物体接触产生的噪声)。此外，已经发现通常有声语音经由骨传导比无声语音更有效地传输。

因此，图5示出了用于对由传声器72和骨传导传感器74生成的信号进行滤波以使得所述信号对于自身语音检测的目的更有用的滤波器电路。

具体地，图5示出了在第一输入90处接收的来自第一传感器72的信号(即，在图3的步骤50处提到的第一信号)，以及在第二输入92处接收的来自第二传感器72的信号(即，在图3的步骤52处提到的第二信号)。

如上所述，可以预期有声语音经由骨传导比无声语音更有效地传输。既然如此，则预期第二信号仅在佩戴者的语音包含有声语音期间才包含重要的信号内容。

因此，在第一输入90处接收的第一信号被传递到有声语音检测块94。当确定第一信号表示有声语音时，这会生成标志。

可以通过例如以下各项标识有声语音：使用例如使用Praat软件根据黄金参考进行训练的深度神经网络(DNN)；对语音信号执行具有单位延迟的自相关(因为有声语音对非零滞后具有更高的自相关)；执行线性预测译码(LPC)分析(因为初始反射系数是有声语音的良好指标)；查看语音信号的过零率(因为无声语音具有更高的过零率)；查看信号的短期能量(对于有声语音，它往往更高)；跟踪第一共振峰频率F0(因为无声语音不包含第一格式频率)；检查线性预测译码(LPC)分析中的误差(因为对于有声语音，LPC预测误差较低)；使用自动语音识别来标识正在说的词，因此将语音分为有声语音和无声语音；或融合上述任何或所有项。

在图3的方法的步骤54中，对第一信号进行滤波以获得第一信号的处于语音清晰度的分量。因此，在第一输入90处接收的第一信号被传递到第一清晰度滤波器96。

在图3的方法的步骤56中，对第二信号进行滤波以获得第二信号的处于语音清晰度的分量。因此，在第二输入92处接收的第二信号被传递到第二清晰度滤波器98。

图6是更详细地示出第一清晰度滤波器96和第二清晰度滤波器98的形式的示意图。

在每种情况下，相应的输入信号被传递到低通滤波器110，所述低通滤波器的截止频率例如可以在1kHz的范围内。经低通滤波的信号被传递到包络检测器112以用于检测滤波后信号的包络。所得包络信号可以任选地被传递到抽取器114，然后传递到带通滤波器116，所述带通滤波器被调谐以允许具有典型清晰度的信号通过。例如，带通滤波器116可以具有5Hz至15Hz之间或5Hz至10Hz之间的通带。

因此，清晰度滤波器96、98检测在与语音的典型清晰度相对应的频率处调制的功率，其中清晰度是说话者说话的速率，其可以例如被测量为说话者产生不同语音或打电话的速率。

在图3的方法的步骤58中，将第一信号的处于语音清晰度的分量与第二信号的处于语音清晰度的分量进行比较。因此，如图5所示，第一清晰度滤波器96和第二清晰度滤波器98的输出被传递到比较和判定块100。

在图3的方法的步骤60中，如果第一信号的处于语音清晰度的分量与第二信号的处于语音清晰度的分量之间的差值超过阈值，则确定语音并非由佩戴可佩戴装置的用户产生。相反地，如果第一信号的处于语音清晰度的分量与第二信号的处于语音清晰度的分量之间的差值未超过阈值，则可以确定语音是由佩戴可佩戴装置的用户产生的。

更具体地，在包括有声语音检测块94的实施例中，可以仅在生成指示第一信号表示有声语音的标志时才执行比较。可以将整个滤波后第一信号传递到比较和判定块100，其中只有在生成指示第一信号表示有声语音的标志时才执行比较，或者可以拒绝无声语音，并且只有滤波后第一信号的表示有声语音的那些片段才可以被传递到比较和判定块100。

因此，处理由第一传感器和第二传感器检测到的信号使得当可佩戴装置的佩戴者是说话人员时，预期第一信号的处理后版本将类似于第二信号的处理后版本。相比之下，如果可佩戴装置的佩戴者不是说话人员，则第一传感器仍然能够检测到空气传导语音，但是第二传感器将无法检测到任何骨传导语音，并且因此预期第一信号的处理后版本将与第二信号的处理后版本大不相同。

图7和图8是这方面的示例，示出了在这两种情况下第一信号和第二个信号的处理后版本的幅度。在每个附图中，信号都会被划分成(例如)持续时间为20ms的帧，并且随时间变化绘制每个帧周期期间的幅度。

具体地，图7示出了可佩戴装置的佩戴者是说话人员的情况，因此第一信号130的处理后版本类似于第二信号132的处理后版本。

相比之下，图8示出了可佩戴装置的佩戴者不是说话人员的情况，因此，虽然第一信号140的处理后版本包含由空气传导语音产生的分量，但是这与第二信号142的处理后版本大不相同，因为它不包含由骨传导语音产生的任何分量。

存在不同的方法用于在第一信号的处于语音清晰度的分量与第二信号的处于语音清晰度的分量之间执行比较，以便确定差值是否超过阈值。

图9是示出来自图5的比较和判定块100的第一形式的示意图，其中第一信号的处理后版本(即，第一信号的处于语音清晰度的分量)由第一清晰度滤波器96生成并传递到比较和判定块100的第一输入120。第二信号的处理后版本(即，第二信号的处于语音清晰度的分量)由第二清晰度滤波器98生成并传递到比较和判定块100的第二输入122。

然后将第一输入120处的信号传递到块124，在所述块中形成经验累积分布函数(ECDF)。类似地，然后将第二输入122处的信号传递到块126，在所述块中形成经验累积分布函数(ECDF)。

在每种情况下，ECDF都是使用帧期间的信号的幅度逐帧地计算的。然后，对于每个可能的信号幅度，ECDF指示实际信号幅度低于所述电平的帧的比例。

图10示出了在类似于图7的情况下计算的两个ECDF，其中这两个信号大致上是相似的。因此还可以看出，这两个ECDF(即，由第一信号形成的ECDF 142和由第二信号形成的ECDF 144)大致上是相似的。

两个ECDF 142、144之间相似性的一种度量是测量它们之间的最大竖直距离，在这种情况下为d1。替代地，可以对这两个ECDF之间的竖直距离进行几次测量，然后求和或求平均值，以便得出合适的度量。

图11示出了在类似于图8的情况下计算的两个ECDF，其中这两个信号显著不同。因此还可以看出，这两个ECDF(即，由第一信号形成的ECDF 152和由第二信号形成的ECDF154)显著不同。具体地，因为第二信号不包含由骨传导语音产生的任何分量，所以它的电平通常比第一信号低得多，因此ECDF的形式表明第二信号的幅度通常较低。

在这种情况下，ECDF 152、154之间的最大竖直距离是d2。

更一般地，将第一信号和第二信号的处于语音清晰度的分量进行比较的步骤可以包括从这些分量形成相应的第一分布函数和第二分布函数，并计算第二分布函数与第一分布函数之间的统计距离的值。

例如，如上所述，第二分布函数与第一分布函数之间的统计距离的值可以被计算为：

d_KS＝max{|F1-F2|}

其中

F1是第一分布函数，并且

F2是第二分布函数，因此

│F1–F2│是给定频率下这两个函数之间的竖直距离。

替代地，第二分布函数与第一分布函数之间的统计距离的值可以被计算为：

d_IN＝∫|F1-F2|df

其中

F1是第一分布函数，并且

F2是第二分布函数，因此

│F1–F2│是给定频率下这两个函数之间的竖直距离。

或者，更具体地，当p＝2时：

其中

F1是第一分布函数，并且

F2是第二分布函数，因此

│F1–F2│是给定频率下这两个函数之间的竖直距离。

在其他示例中，将分量进行比较的步骤可以使用机器学习系统，所述机器学习系统已经被训练以区分从佩戴者自己的语音和非佩戴者的语音生成的分量。

虽然这里给出了分布函数是累积分布函数的示例，但是也可以使用其他分布函数(诸如概率分布函数)以及用于将这些函数进行比较的适当方法。用于比较的方法可以包括使用如上所述的机器学习系统。

因此，返回到图9，ECDF被传递到块128，所述块计算ECDF之间的统计距离d并将其传递到块130，在此处将统计距离与阈值θ进行比较。

如参考图3的方法的步骤60所讨论的，如果由第一信号的处于语音清晰度的分量和第二信号的处于语音清晰度的分量生成的ECDF之间的统计距离超过阈值θ，则确定语音并非由佩戴可佩戴装置的用户产生。相反地，如果由第一信号的处于语音清晰度的分量和第二信号的处于语音清晰度的分量生成的ECDF之间的统计距离未超过阈值θ，则可以确定语音是由佩戴可佩戴装置的用户产生的。

图12是示出来自图5的比较和判定块100的第二形式的示意图，其中第一信号的处理后版本(即，第一信号的处于语音清晰度的分量)由第一清晰度滤波器96生成并传递到比较和判定块100的第一输入160。第二信号的处理后版本(即，第二信号的处于语音清晰度的分量)由第二清晰度滤波器98生成并传递到比较和判定块100的第二输入162。

在减法器164中从第二输入162处的信号中减去第一输入160处的信号，并且将差值Δ传递到比较块166。在一些实施例中，将在每一帧中计算的差值Δ的值与阈值进行比较。如果在任何帧中差值超过阈值，则可以确定语音并非由佩戴可佩戴装置的用户产生。在其他实施例中，统计分析在多个帧中计算的差值Δ的值。例如，可以将在20帧的块上计算的Δ的均值或移动均值与阈值进行比较。作为另一个示例，可以将在帧块上计算的Δ的中值与阈值进行比较。在这些情况中的任何一种情况下，如果从单独的差值计算的参数超过阈值，则可以确定语音(或至少从中计算差值的语音的相关部分)并非由佩戴可佩戴装置的用户产生。

图13是使用先前描述的自身语音检测方法的系统的示意框图。

具体地，图13示出了可以设置在可佩戴装置上的第一传感器200和第二传感器202。如参考图4所描述的，第一传感器200可以采用检测通过空气传输的声学信号的传声器的形式，而第二传感器202可以采用用于检测通过骨传导传输(包括通过佩戴者的软组织传输)的信号的加速度计的形式。

来自第一传感器200和第二传感器202的信号被传递到佩戴检测块204，所述佩戴检测块将由传感器生成的信号进行比较并确定可佩戴装置此时是否被佩戴。例如，当可佩戴装置是耳机时，佩戴检测块204可以采用入耳式检测块的形式。在耳机的情况下，例如如图4所示，如果耳机在用户的耳朵之外，则由传感器200和202检测到的信号大致上相同，但是如果耳机被佩戴，则显著不同。因此，将信号进行比较允许确定可佩戴装置是否被佩戴。

其他系统可用于检测可佩戴装置是否被佩戴，并且这些系统可以使用或不使用传感器200、202中的任一者。例如，可以使用光学传感器、电导率传感器或接近传感器。

另外，佩戴检测块204可以被配置为执行“活体检测”，即，确定此时可佩戴装置是否被活人佩戴。例如，可以分析由第二传感器202生成的信号以检测佩戴者脉搏的迹象，以确认诸如耳机或手表之类的可佩戴装置被人员佩戴，而非放置在无生命物体中或其上。

当所述方法用于检测手持诸如移动电话之类的手持装置的人员是否是说话人员时，检测块204可以被配置用于确定所述装置是否被用户手持(而不是例如在放在桌子或其他表面上时使用)。例如，检测块可以接收来自传感器202或来自一个或多个单独传感器的信号，其可以用于确定装置是否被用户手持和/或压靠在用户的头部上。例如，可以再次使用光学传感器、电导率传感器或接近传感器。

如果确定可佩戴装置被佩戴，或者手持装置被手持，则来自检测块204的信号用于闭合开关206、208，并且来自传感器200、202的信号被传递到图5所示电路的输入90、92。

如参考图5所描述的，比较和判定块100生成指示检测到的语音是否由佩戴可佩戴装置的人员所说的输出信号。

在该示例性系统中，来自第一传感器200的信号也被传递到声音关键词检测块220。声音关键词检测块220检测特定的“唤醒词”，其由装置的用户使用来将所述装置从低功率待机模式唤醒并将所述装置置于可进行语音识别的模式中。

当声音关键词检测块220检测到特定的“唤醒词”时，来自第一传感器200的信号被发送到说话者识别块222。

如果来自比较和判定块100的输出信号指示检测到的语音并非由佩戴可佩戴装置的人员说出，则这被认为是欺骗，因此不希望对检测到的语音执行语音识别。

然而，如果来自比较和判定块100的输出信号指示检测到的语音是由佩戴可佩戴装置的人员说出的，则说话者识别块222可以对来自第一传感器200的信号执行说话者识别过程。一般而言，说话者识别过程从语音信号中提取特征，并将它们与通过将已知用户登记到说话者识别系统而生成的模型的特征进行比较。如果比较发现语音特征与模型足够相似，则以足够高的概率水平确定说话者是登记用户。

当可佩戴装置所述耳机时，说话者识别过程可以被省略并被替换为标识耳机的佩戴者的耳部生物识别过程。例如，这可以通过检查由设置在耳机上的入耳式传声器(所述传声器也可以充当第二传感器202)生成的信号并将信号特征与登记用户的耳朵的声学模型进行比较来完成。如果可以对相关应用程序有足够的信心确定耳机被登记用户佩戴并且语音是佩戴耳机的人员的语音，则这可以充当说话者识别的一种形式。

如果确定说话者是登记用户(通过来自说话者识别块222的输出，或通过使用对可佩戴装置被登记用户佩戴的确认)，则将信号发送到语音识别块224，所述语音识别块也接收来自第一传感器200的信号。

语音识别块224然后对接收到的信号执行语音识别处理。例如，如果所述语音识别块检测到语音包含命令，则它可以向进一步的应用程序发送输出信号以对所述命令采取行动。

因此，骨传导信号的可用性可以用于自身语音检测的目的。此外，自身语音检测的结果可以用于提高说话者识别和语音识别系统的可靠性。

技术人员将认识到，上述设备和方法的一些方面可以被体现为例如位于诸如磁盘、CD-或DVD-ROM、已编程存储器(诸如只读存储器(固件))之类的非易失性载体介质上或位于诸如光学或电信号载体之类的数据载体上的处理器控制代码。对于许多应用，本发明的实施例将实施于DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此，代码可以包括常规的程序代码或微代码，或(例如)用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可再配置设备(诸如可再编程逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。技术人员应当理解，代码可以分布在彼此通信的多个耦合部件之间。在适当情况下，还可以使用在现场(可再编程)可编程模拟阵列或类似装置上运行以便配置模拟硬件的代码来实施所述实施例。

注意，如本文中所使用的术语模块应当用于指代功能单元或块，其可以至少部分地由专用硬件部件(诸如定制定义电路)来实现和/或至少部分地由一个或多个软件处理器或在合适的通用处理器上运行的合适代码等来实施。模块本身可以包括其他模块或功能单元。模块可以由多个部件或子模块提供，所述部件或子模块不需要共置，而是可以设置在不同的集成电路上和/或在不同的处理器上运行。

实施例可以在主机装置、尤其是便携式和/或电池供电的主机装置(诸如移动计算装置(例如膝上型或平板计算机)、游戏机、遥控装置、包括家庭温度或照明控制系统的家庭自动化控制器或家用电器、玩具、诸如机器人之类的机器、音频播放器、视频播放器或移动电话(例如智能电话))中实施。

应当注意，上述实施例示出而非限制本发明，并且本领域技术人员将能够在不脱离所附权利要求的范围的情况下设计许多替代实施例。词语“包括”不排除除了在权利要求中列出的要素或步骤之外的要素或步骤的存在，“一”或“一个”不排除多个，并且单个特征或其他单元可以履行在权利要求中叙述的几个单元的功能。权利要求中的任何附图标记或标签都不应被解释为限制它们的范围。

Claims

1.一种用于装置的用户的自身语音检测方法，所述方法包括：

2.根据权利要求1所述的方法，其包括：

检测所述第一信号中表示有声语音的信号分量；以及

仅在表示有声语音的信号分量存在于所述第一信号中的时间段期间，才将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较。

3.根据权利要求1或2所述的方法，其包括：

在第一带通滤波器中对所述第一信号进行滤波以获得所述第一信号的处于所述语音清晰度的所述分量；以及

在第二带通滤波器中对所述第二信号进行滤波以获得所述第二信号的处于所述语音清晰度的所述分量；

其中所述第一带通滤波器和所述第二带通滤波器具有包括5Hz至15Hz的频率范围的相应通带。

4.根据权利要求3所述的方法，其还包括：在所述第一带通滤波器中对所述第一信号进行滤波并在所述第二带通滤波器中对所述第二信号进行滤波之前，对所述第一信号和所述第二信号进行低通滤波，并检测每个滤波后信号的包络。

5.根据权利要求1至4中任一项所述的方法，其中：

将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较包括：

形成所述第一信号的处于所述语音清晰度的所述分量的累积分布函数；

形成所述第二信号的处于所述语音清晰度的所述分量的累积分布函数；以及

确定所述第一信号的处于所述语音清晰度的所述分量的所述累积分布函数与所述第二信号的处于所述语音清晰度的所述分量的所述累积分布函数之间的差值，

并且其中如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值则确定所述语音并非由所述装置的所述用户产生包括如果所述第一信号的处于所述语音清晰度的所述分量的所述累积分布函数与所述第二信号的处于所述语音清晰度的所述分量的所述累积分布函数之间的所述差值超过阈值，则确定所述语音并非由所述装置的所述用户产生。

6.根据权利要求5所述的方法，其包括：

在多个帧中的每一者中获得所述第一信号的处于所述语音清晰度的所述分量和所述第二信号的处于所述语音清晰度的所述分量；以及

使用多个所述帧期间相应信号的幅度逐帧地形成所述累积分布函数。

7.根据权利要求1至4中任一项所述的方法，其中：

从所述第一信号的处于所述语音清晰度的所述分量中减去所述第二信号的处于所述语音清晰度的所述分量；

并且其中如果所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量之间的差值超过阈值则确定所述语音并非由所述装置的所述用户产生包括如果从所述第一信号的处于所述语音清晰度的所述分量中减去所述第二信号的处于所述语音清晰度的所述分量的结果超过阈值，则确定所述语音并非由所述装置的所述用户产生。

8.根据权利要求7所述的方法，其包括：

在多个帧中的每一者中获得所述第一信号的处于所述语音清晰度的所述分量和所述第二信号的处于所述语音清晰度的所述分量；

从所述第一信号的处于所述语音清晰度的所述分量中逐帧地减去所述第二信号的处于所述语音清晰度的所述分量；以及

从逐帧地计算的多个值形成从所述第一信号的处于所述语音清晰度的所述分量中减去所述第二信号的处于所述语音清晰度的所述分量的所述结果。

9.根据前述权利要求中任一项所述的方法，其中所述装置是可佩戴装置，并且所述装置的所述用户是所述装置的佩戴者。

10.根据权利要求9所述的方法，其中所述可佩戴装置是耳机、智能眼镜或智能手表。

11.根据权利要求1至8中任一项所述的方法，其中所述装置是手持装置。

12.根据权利要求11所述的方法，其中所述手持装置是移动电话。

13.一种用于装置的用户的自身语音检测的系统，所述系统包括：

14.根据权利要求13所述的系统，其包括：

其中所述至少一个滤波器包括至少一个带通滤波器以用于对所述第一信号进行滤波并对所述第二信号进行滤波；以及

其中所述至少一个带通滤波器具有包括5Hz至15Hz的频率范围的通带。

15.根据权利要求14所述的系统，其中所述至少一个滤波器包括：

至少一个低通滤波器，所述至少一个低通滤波器用于在所述至少一个带通滤波器中对所述第一信号和所述第二信号进行滤波之前对所述第一信号和所述第二信号进行低通滤波，以及

包络检测器，所述包络检测器用于检测每个滤波后信号的包络。

16.根据权利要求13至15中任一项所述的系统，其中所述装置是可佩戴装置，并且所述装置的所述用户是所述装置的佩戴者，并且其中在与所述可佩戴装置分离的装置中实施所述系统。

17.根据权利要求16所述的系统，其中所述可佩戴装置是耳机、智能眼镜或智能手表。

18.根据权利要求13至15中任一项所述的系统，其中所述装置是手持装置，并且在所述装置中实施所述系统。

19.根据权利要求18所述的系统，其中所述手持装置是移动电话。

20.一种检测对说话者识别系统的欺骗攻击的方法，所述方法包括：

21.根据权利要求20所述的方法，其包括：

确定所述装置是被佩戴还是手持，以及

仅当确定所述装置被佩戴或手持时，才至少执行将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较的步骤。

22.根据权利要求20或21所述的方法，其还包括：

对表示语音的所述第一信号执行声音关键词检测；以及

仅当在表示语音的所述第一信号中检测到预定声音关键词时，才对表示语音的所述第一信号执行说话者识别。

23.根据权利要求20至22中任一项所述的方法，其还包括：

如果执行说话者识别的结果是确定所述语音是由登记用户产生的，则对表示语音的所述第一信号执行语音识别。

24.根据权利要求20至23中任一项所述的方法，其中所述装置是可佩戴装置，并且所述装置的所述用户是所述装置的佩戴者。

25.根据权利要求24所述的方法，其中所述可佩戴装置是耳机、智能眼镜或智能手表。

26.根据权利要求20至23中任一项所述的方法，其中所述装置是手持装置。

27.根据权利要求26所述的方法，其中所述手持装置是移动电话。

28.一种说话者识别系统，其包括：

29.根据权利要求28所述的系统，其包括：

检测电路，所述检测电路用于确定所述装置是被佩戴还是手持，

其中所述系统被配置为仅当确定所述装置被佩戴或手持时，才至少执行将所述第一信号的处于所述语音清晰度的所述分量与所述第二信号的处于所述语音清晰度的所述分量进行比较的步骤。

30.根据权利要求28或29所述的系统，其还包括：

声音关键词检测块，所述声音关键词检测块用于接收表示语音的所述第一信号，

其中所述系统被配置为仅当在表示语音的所述第一信号中检测到预定声音关键词时，才对表示语音的所述第一信号执行说话者识别。

31.根据权利要求28至30中任一项所述的系统，其中所述系统被配置为如果执行说话者识别的结果是确定所述语音是由登记用户产生的，则对表示语音的所述第一信号执行语音识别。

32.根据权利要求28至31中任一项所述的系统，其中所述装置是可佩戴装置，并且所述装置的所述用户是所述装置的佩戴者。

33.根据权利要求32所述的系统，其中所述可佩戴装置是耳机、智能眼镜或智能手表。

34.根据权利要求28至31中任一项所述的系统，其中所述装置是手持装置。

35.根据权利要求34所述的系统，其中所述手持装置是移动电话。