CN114586095A

CN114586095A - 实时语音检测

Info

Publication number: CN114586095A
Application number: CN202080074447.7A
Authority: CN
Inventors: J·P·莱索; T·井户
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2019-11-21
Filing date: 2020-11-06
Publication date: 2022-06-03
Also published as: KR20220104693A; DE112020005717T5; GB2603397A; US20210158797A1; US11705109B2; GB202205078D0; WO2021099760A1; US20230290335A1

Abstract

一种检测实时语音的方法包括：接收包含语音的信号；获得所接收的信号在第一频带中的第一分量，其中第一频带包括音频频率；以及获得所接收的信号在高于第一频带的第二频带中的第二分量。然后，检测所接收的信号的第一分量的调制；检测所接收的信号的第二分量的调制；以及比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制。如果所接收的信号的第一分量的调制不同于所接收的信号的第二分量的调制，则可以确定语音可能不是实时语音。

Description

实时语音检测

技术领域

本文描述的实施例涉及用于检测实时语音的方法和装置。作为一个示例，实时语音的检测可以用于检测对语音生物识别系统的重放攻击。作为另一个示例，实时语音的检测可以用于检测由智能扬声器装置检测到的语音不是实时说话者的语音。

背景技术

语音检测系统正变得广泛使用。

在语音生物识别系统中，用户通过在登记阶段期间提供他们的语音样本来训练系统。在随后的使用中，系统能够区分登记用户和未注册说话者。语音生物识别系统原则上可用于控制对各种服务和系统的访问。

恶意方尝试击败语音生物识别系统的一种方式是获得登记用户的语音的记录，并且回放该记录以尝试假扮登记用户并获得对旨在限于登记用户的服务的访问。

这被称为重放攻击或欺骗攻击。

在智能扬声器或其他语音命令装置中，用户能够通过语音用户界面与虚拟助理或其他计算机装置进行交互。检测用户的语音，并且解释用户说出的字词，并且使用这些字词来控制系统的操作。

这种系统的一个问题是语音命令装置可能检测到无关的语音，诸如来自与智能扬声器处于同一房间的电视的语音，并且可能尝试将该语音解释为它应当按照其进行操作的命令。

发明内容

根据本发明的一个方面，提供了一种检测实时语音的方法。该方法包括接收包含语音的信号。然后，获得所接收的信号在第一频带中的第一分量，其中第一频带包括音频频率，并且获得所接收的信号在高于所述第一频带的第二频带中的第二分量。检测所接收的信号的第一分量的调制和所接收的信号的第二分量的调制。比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制。然后，该方法包括根据比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制的结果，确定语音是否是实时语音。

获得所接收的信号的第一分量可以包括对所接收的信号进行低通滤波。

获得所接收的信号的第二分量可以包括对所接收的信号进行高通滤波。

第二频带可以包括超声频率。

检测所接收的信号的第一分量的调制可以包括：

检测所接收的信号的第一分量的第一包络；以及

检测第一包络的分量。

检测所接收的信号的第二分量的调制可以包括：

检测所接收的信号的第二分量的第二包络；以及

检测第二包络的分量。

该方法可以包括在对应于语音发音速率(articulation rate)的频带中检测所接收的信号的第一分量和所接收的信号的第二分量的调制。语音发音频带可以包括低于18Hz的频率。更具体地，语音发音频带可以包括5Hz-15Hz范围内的频率。

比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可以包括获得与所接收的信号的第一分量的调制量相关的第一参数；以及获得与所接收的信号的第二分量的调制量相关的第二参数。如果所接收的信号的第一分量的调制不同于所接收的信号的第二分量的调制，则确定语音可能不是实时语音的步骤可以包括如果第一参数超过第一阈值并且第二参数未超过第二阈值，则确定语音可能不是实时语音。

比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可以包括获得作为所接收的信号的第一分量的调制和所接收的信号的第二分量的调制之间的相似性的度量的系数。

比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可以包括使用神经网络来比较所接收的信号的第一分量的调制的一系列样本和所接收的信号的第二分量的调制的一系列样本。

该方法还可包括：

获得所接收的信号在高于所述第一频带的第三频带中的第三分量；

检测所接收的信号的第三分量的调制；

比较所接收的信号的第二分量的调制和所接收的信号的第三分量的调制；以及

基于比较所接收的信号的第二分量的调制和所接收的信号的第三分量的调制的结果来确定语音的源。

根据本发明的另一方面，提供了一种被配置用于执行第一方面的方法的系统。

根据本发明的另一方面，提供了一种包括这种系统的装置。该装置可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏装置、远程控制器装置、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面，提供了一种计算机程序产品，该计算机程序产品包括计算机可读有形介质和用于执行根据第一方面的方法的指令。

根据本发明的另一方面，提供了一种非暂时性计算机可读存储介质，其上存储有计算机可执行指令，该计算机可执行指令在由处理器电路系统执行时使处理器电路系统执行根据第一方面的方法。

根据另一方面，提供了一种包括非暂时性计算机可读存储介质的装置。该装置可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏装置、远程控制器装置、玩具、机器或家庭自动化控制器或家用电器。

附图说明

为了更好地理解本发明，并示出如何实施本发明，现在将参考附图，其中：

图1示出了智能电话。

图2是示出智能电话的形式的示意图。

图3示出了其中正在执行重放攻击的情况。

图4示出了智能扬声器装置。

图5是示出智能扬声器装置的形式的示意图。

图6示出了智能扬声器装置检测无关语音的情况。

图7示出了用在图1的智能电话或图4的智能扬声器装置中的语音处理系统。

图8更详细地说明了图7的语音处理系统的一部分。

图9和图10示出了在图7的语音处理系统中产生的数据。

图11是示出语音处理系统的操作方法的流程图。

具体实施方式

以下描述陈述了根据本公开的示例性实施例。其他示例性实施例和实施方式对于本领域普通技术人员来说将显而易见。此外，本领域普通技术人员将认识到，可以代替或结合下文讨论的实施例来应用各种等效技术，并且所有此类等同物将被视为由本公开所涵盖。

作为示例，本发明的一个示例是参考其在智能电话中的使用来说明的，但是应当理解，其可以在任何合适的装置中实现，如下面更详细地描述的。

图1示出了智能电话10，该智能电话具有用于检测环境声音的麦克风12。在正常使用中，麦克风当然用于检测手持智能电话10的用户的语音。

智能电话10还具有两个扩音器14、16。第一扩音器14位于智能电话10的顶部，当智能电话被保持在其正常操作位置以进行语音呼叫时，该第一扩音器用于播放从呼叫的远程方接收的声音。

第二扩音器16位于智能电话10的底部，并且用于回放来自本地源或远程源的媒体内容。因此，第二扩音器16用于回放存储在智能电话10上的音乐或者与通过互联网访问的视频相关联的声音。

图示的智能电话10还具有两个附加麦克风12a、12b。如果装置中存在附加麦克风，则可以在任何合适的位置提供附加麦克风。在该例示的装置中，一个麦克风12a位于装置正面的顶端，而另一个麦克风12b位于装置侧面的顶端。

图2是示出智能电话10的形式的示意图。

具体地，图2示出了智能电话10的各种互连部件。应当理解，智能电话10实际上将包含许多其他部件，但是以下描述对于理解本发明而言已经足够了。

因此，图2示出了上述麦克风12。在这个具体例示的实施例中，智能电话10设置有多个麦克风12、12a、12b等。图2还示出了扩音器14、16。

图2还示出了存储器18，其实际上可以作为单个部件或多个部件提供。存储器18被提供用于存储数据和程序指令。

图2还示出了配件20，其实际上再次可以作为单个部件或多个部件提供。例如，处理器20的一个部件可以是智能电话10的应用程序处理器。

图2还示出了收发器22，其被提供用于允许智能电话10与外部网络进行通信。例如，收发器22可以包括用于通过WiFi局域网和/或通过蜂窝网络建立互联网连接的电路系统系统。

图2还示出了音频处理电路系统24以用于根据需要对由传声器12检测到的音频信号执行操作。例如，音频处理电路系统24可以对音频信号进行滤波或执行其他信号处理操作。

音频信号处理电路系统还能够产生音频信号，以用于通过扩音器14、16回放，如下面更详细地讨论的。

图2还示出了智能电话10可以包括一个或多个传感器26。在某些实施例中，传感器可以包括以下的任意组合：

陀螺仪、加速度计、接近传感器、亮度传感器、触摸传感器和相机。

在这个例示的实施例中，智能电话10设置有声音生物识别功能并且设置有控制功能。因此，智能电话10能够响应于来自登记用户的口头命令而执行各种功能。生物识别功能能够区分来自登记用户的口头命令和由不同人员说出的相同命令。因此，本发明的某些实施例涉及具有某种语音可操作性的智能电话或另一种便携式电子装置(例如平板计算机或膝上型计算机、游戏机、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等)的操作，其中在旨在执行口头命令的装置中执行声音生物识别功能。某些其他实施例涉及其中对智能电话或其他装置执行声音生物识别功能的系统，如果声音生物识别功能能够确认说话者是登记用户，则所述智能电话或其他装置然后将命令传输到单独的装置。

在一些实施例中，当对智能电话10或靠近用户定位的其他装置执行声音生物识别功能时，使用收发器22将口头命令传输到远程语音识别系统，所述远程语音识别系统确定口头命令的含义。例如，语音识别系统可以位于云计算环境中的一个或多个远程服务器上。基于口头命令的含义的信号然后返回到智能电话10或其他本地装置。在其他实施例中，语音识别系统也位于装置10上。

欺骗语音生物识别系统的一种尝试是在所谓的重放攻击或欺骗攻击中播放登记用户的语音的记录。

图3示出了其中正在执行重放攻击的情况的示例。因此，在图3中，智能电话10设置有语音生物识别功能。在该示例中，智能手机10至少暂时被具有另一个智能电话30的攻击者所拥有。智能电话30已经被用于记录智能电话10的登记用户的语音。智能电话30靠近智能电话10的麦克风入口12，并且回放登记用户的语音的记录。如果语音生物识别系统不能确定其所识别的登记用户的语音是录音，则攻击者将获得对一个或多个服务的访问权，所述一个或多个服务原本只允许登记用户访问。

同时或单独地，当智能电话10设置有基于相机的生物识别功能诸如面部识别系统时，攻击者可以使用智能电话30的显示器来显示登记用户的照片或视频，以尝试击败面部识别系统。

因此，这里描述的实施例尝试检测实时语音，例如确认检测到的任何语音声音都是实时语音，而不是回放。

图4示出了智能扬声器装置40，该智能扬声器装置具有用于检测环境声音的多个麦克风42a、42b、42c、42d。麦克风42a、42b、42c、42d的目的是检测在装置40附近的用户的语音。

智能扬声器装置40还具有扩音器44，例如用于响应于来自用户的语音命令播放音乐。

图5是示出智能扬声器装置40的形式的示意图。

具体地，图5示出了智能扬声器40的各种互连部件。应当理解，智能扬声器40实际上将包含许多其他部件，但是以下描述对于理解本发明而言已经足够了。

因此，图5示出了麦克风42a、42b、42c、42d。图5还示出了扩音器44。

图5还示出了存储器48，其实际上可以作为单个部件或多个部件提供。存储器48被提供用于存储数据和程序指令。

图5还示出了配件50，其实际上再次可以作为单个部件或多个部件提供。

图5还示出了收发器52，该收发器被设置用于允许智能扬声器装置40与外部网络进行通信。例如，收发器52可以包括用于通过WiFi局域网和/或通过蜂窝网络建立互联网连接的电路系统系统。

图5还示出了音频处理电路系统54，以用于根据需要对麦克风42a、42b、42c、42d检测到的音频信号执行操作。例如，音频处理电路系统54可以对音频信号进行滤波或执行其他信号处理操作。

音频信号处理电路系统54还能够例如响应于用户命令，生成用于通过扩音器44回放的音频信号。

在这个例示的实施例中，智能扬声器装置40设置有声音生物识别功能并且设置有控制功能。因此，智能扬声器装置40能够响应于检测到的来自用户的口头命令来执行各种功能。智能扬声器装置40可以设置有生物识别功能，从而允许其区分来自登记用户的口头命令和由不同的人说出的相同命令。

可以执行某些检测到的命令(例如，控制房间中的加热或照明)，而不管说话的人是否被确定为登记用户。只有当说话的人被确定为登记用户时，才可以执行其他命令(例如，为商品或服务付费)。根据检测到的说话者的身份，可以以不同的方式执行更多的命令(例如，“播放我最喜欢的音乐”)。因此，命令可以涉及智能扬声器装置本身的操作，而其他命令可以被传输到要被控制的单独装置。

在一些实施例中，使用收发器52将口头命令传输到远程语音识别系统，该远程语音识别系统确定口头命令的含义。例如，语音识别系统可以位于云计算环境中的一个或多个远程服务器上。基于口头命令的含义的信号然后返回到智能扬声器40或其他本地装置。在其他实施例中，语音识别系统也位于装置40上。

可能出现的一个困难是当智能扬声器装置40检测到语音不是由人说出的，而是例如已经通过智能扬声器附近的电视机的扬声器播放时。

图6说明了这种情况。因此，在图6中，智能扬声器装置40位于房间中，其中电视机60安装在房间的墙壁上。

当声音通过电视机60的扬声器62播放时，这些声音将被智能扬声器装置40的麦克风检测到。当这些声音包括说出的字词时，智能扬声器装置很可能会尝试解释这些字词，就好像它们是由房间中的活人说出的一样。

图7是示意框图，示出了用于检测实时语音的系统68。

众所周知，代表语音的信号将包含语音发音速率下的分量，典型地在2Hz-15Hz的频率范围内，例如4Hz-5Hz，例如2Hz-10hz，例如4Hz-10Hz。

众所周知，许多声音记录和回放系统不擅长在很宽的频率范围内再现信号。例如，装置诸如智能电话和电视通常包括声音再现系统，该声音再现系统不擅长再现高于人类听觉正常范围即高于音频频带的频率的信号，或者更准确地说，高于约15kHz或者高于约20kHz的频率。

一个问题是由智能电话记录的信号通常将具有相对低的采样率，例如16kHz，并且因此将仅能够在相对窄的带宽内记录声音的分量。即使当通过可能能够再现高达100kHz的频率的高质量扩音器播放时，这种信号也不会再现高于8kHz的原始声音的分量(因为16kHz是8kHz信号的奈奎斯特采样率)。

第二个问题是，智能电话扩音器不是为再现高频信号而设计的。例如，这种扩音器可能不能再现20kHz以上的信号，并且可能不能忠实地再现大约15kHz以上的信号。

然而，现在注意到，人类语音在高于音频频带的频率处确实包含显著的功率，因此应该预期表示实时语音的信号的高频分量应该以语音发音速率进行调制。相比之下，重放信号可能不再包含音频频带以上的所有频率，并且因此现在认识到，重放信号可能不会以与代表实时语音的信号相同的方式在语音发音速率下被调制。

系统68旨在检测这种差异。

图7示出了麦克风70，其例如可以是图1和图2所示的智能电话10中的麦克风12、12a、12b中的一者，或者可以是图4和图5所示的智能扬声器40中的麦克风42a、42b、42c、42d中的一者。

在该实施例中，麦克风70连接到语音活动检测(VAD)块72，该语音活动检测块可以例如以96kHz的采样速率执行各种预处理步骤，诸如所接收的信号的模数转换，以确保数字信号包含频率在超声频带内的模拟信号的分量。VAD块72还可以将所接收的信号分成帧，然后检测所接收的信号中语音的存在。当不存在语音时，信号不被传递到系统68的其余部分。

因此，在该实施例中，VAD 72检测所接收的信号是否具有作为语音的特性的属性，并且系统68的其余部分确定所检测的语音是否是实时语音。在其他实施例中，系统68可以以“始终在线”的方式操作，其中没有VAD块72，并且来自麦克风70的信号总是被处理，使得系统可以确定该信号是否代表实时语音。在这样的实施例中，系统68本身可以充当仅检测实时语音的语音活动检测器，并且因此系统68的输出可以用于控制是否应该激活下游功能，诸如说话者识别和语音识别。

众所周知，语音可以分为浊音和清音。语音由音素组成，音素由声带和声道(包括嘴和嘴唇)产生。在音素的发音过程中，当声带振动时，产生浊音语音信号。相比之下，清音语音信号不需要使用声带。浊音语音信号诸如元音/a/、/e/、/i/、/u/、/o/倾向于在较低频率下更响亮和/或包含更多功率。清音语音信号诸如辅音/p/、/t/、/k/、/s/、/z/、/f/和/v/在高频时倾向于更突变和/或包含更多功率。

鉴于此，可以预期，如果到达VAD 72的所接收的信号包括清音语音，则当与浊音语音相比时，在较高频率下有更多的所接收的信号调制。相反，如果到达VAD 72的所接收的信号包括浊音语音，则在与清音语音相比时，在高频下所接收的信号的调制较少，但在低频下的调制量与清音语音的调制量相似。

鉴于以上所述，并且由于浊音语音和清音语音具有不同的频率属性，在一些实施例中，VAD 72可以检测用户语音的不同部分，诸如所接收的信号中的浊音语音和清音语音，并且仅基于特定声学类别(即，浊音语音或清音语音)的片段来确定语音是否是实时的。例如，VAD 72可以检测所接收的信号是否具有作为清音语音的特性的属性，并且系统68的其余部分确定所检测的清音语音是否是实时语音。例如，VAD 72可检测所接收的信号是否具有作为浊音语音的特性的属性，并且系统68的其余部分确定所检测的浊音语音是否是实时语音。

当没有VAD块72时，输入处理块仍然可以执行上述预处理功能，诸如所接收的信号的模数转换，以及将所接收的信号分成帧。

所接收的信号然后被传递到任选的预加重滤波器(PRE)74，该预加重滤波器用于提升所接收的信号中的较高频率，因为通常它们的幅度比音频频带信号低得多。

在任何预滤波之后，所接收的信号然后被分成多个频带。在这个例示的实施例中，信号被分成两个频带。在其他实施例中，信号被分成三个或更多个频带。

具体地，所接收的信号被传递到第一滤波器76，在一个实施例中，该第一滤波器是低通滤波器，例如具有5kHz截止频率的2阶低通滤波器。

该第一频带中的信号分量被传递到第一发音速率滤波器(ARF)78，该第一发音速率滤波器用于检测对应于语音发音速率的频率处的第一信号分量的调制，如下面更详细讨论的。

类似地，所接收的信号被传递到第二滤波器80，在一个实施例中，该第二滤波器是具有10kHz截止频率的高通滤波器。

该第二频带中的信号分量被传递到第二发音速率滤波器(ARF)82，该第二发音速率滤波器用于检测在对应于语音发音速率的频率处的第二信号分量的调制。

图8示出了发音速率滤波器78、82的一般形式。

具体地，每个发音速率滤波器包括包络跟踪器或检测器90，以用于检测相应信号分量的调制。

例如，包络检测器90可以实现希尔伯特变换滤波器，包络检测器90可以对其输入信号进行平方并对结果进行低通滤波，包络检测器90可以取其输入信号的绝对值并对结果进行低通滤波，或者包络检测器90可以包括合适的时变滤波器。

包络检测器90的输出然后被传递到滤波器92，以用于检测在语音发音速率处的所检测的调制的分量。

因此，滤波器92例如可以是以10Hz范围内的频率为中心的带通滤波器，或者可以是截止频率为大约20Hz的低通滤波器。

滤波器92的输出也可被传递到抽选器94，以将数据速率从原始采样速率(例如96KHz)降低到低得多的速率(诸如50Hz或100Hz)，这仍然足以捕获语音发音速率下的调制。

因此，对于输入信号的至少两个频带，系统68在5Hz-15Hz范围内的调制频谱中寻找能量。

在一些实施例中，这些频带中的一个频带在音频频带内(即<20kHz)，并且这些频带中的一个频带在音频频带外(即>20kHz)。

在一些实施例中，除了抽选器94的抽选之外，滤波器92的输出也可以被缓冲并传递到归一化块96。在一个实施例中，在所接收的信号已经被向下采样到50Hz的采样速率的情况下，缓冲器能够存储50个最近的采样值，即，表示信号的最近的1秒的样本。

归一化可包括将缓冲样本中的每个缓冲样本乘以相同的乘法因子，使得最大样本值等于1。

在一些实施例中，分别对通过发音速率滤波器78、82的两个信号单独执行归一化处理。

在其他实施例中，对通过发音速率滤波器78、82的两个信号联合执行归一化的过程，其中缓冲样本中的每个缓冲样本乘以相同的乘法因子，使得两个发音速率滤波器中的任一个中的最大样本值等于1，结果是两个发音速率滤波器中的另一个中的最大样本值等于某个小于1的值。

所使用的归一化过程可以是最小/最大归一化，其中缓冲器中的所有样本(如果是发音速率滤波器78或82，则可以是最近的样本，或者可以是两个发音速率滤波器78、82中的最近的样本，如上所述)被归一化到范围(0,1)内。

因此，在最小样本值被定义为min(数据)，并且最大样本值被定义为max(数据)的情况下，值数据的样本被归一化为值N，其中：

N＝(数据-min(数据))/(max(数据)-min(数据))。

图9和图10示出了由发音速率滤波器78、82产生的数据的示例。具体地，图9和图10示出了归一化步骤之前由发音速率滤波器78、82中的相应抽选器94生成的数据。更具体地，图9示出了响应于实时语音而产生的数据的示例，而图10示出了响应于重放语音而产生的数据的示例。

在图9中，线120指示在这是低通滤波器的实施例中，例如具有5kHz的截止频率的低通滤波器，由第一滤波器76生成的表示下采样之后的语音的1秒的50个样本的值。线122指示在这是高通滤波器的实施例中，例如具有10kHz的截止频率的高通滤波器，由第二滤波器80生成的表示下采样之后的语音的1秒的50个样本的值。

在这种情况下，可以看出，在线120、122之间有相当高程度的相关性，并且这是由于系统的输入是实时语音，其中高频分量仍然完好无损，并且发音速率滤波器82能够检测语音发音速率处的较高频率分量的调制。

在图10中，线130指示在这是低通滤波器的实施例中，例如具有5kHz的截止频率的低通滤波器，由第一滤波器76生成的表示下采样之后的语音的1秒的50个样本的值。线132指示在这是高通滤波器的实施例中，例如具有10kHz的截止频率的高通滤波器，由第二滤波器80生成的表示下采样之后的语音的1秒的50个样本的值。

在这种情况下，可以看出，线130、132之间的相关性很小，并且这是由于系统的输入是重放语音，其中高频分量已经被记录和重放系统的限制大大地去除，并且发音速率滤波器82不再能够检测在语音发音速率处的较高频分量的调制。

发音速率滤波器78、82的输出被传递到比较块84，在那里它们被用来确定接收的语音是否是实时语音。

例如，如果两个频带都示出了以语音发音速率的调制，则可以假设语音是实时的。然而，如果两个频带中的调制不同，例如，如果仅在较低频率(即，例如音频)频带分量中检测到调制，而未在较高频率(即，例如超声)频带中检测到调制，则可以假设接收到的语音已经通过声音再现装置重放，并且不是实时语音。

比较块84可以例如通过计算指示两个频带中的每个频带中的发音速率调制的相应程度的参数值来操作。该参数例如可以是峰值信号值、最大-最小值、均方根值等。

然后将计算的参数值中的每一者与相应的阈值进行比较。

比较块84可以针对两个频带中的每个频带计算不同参数的值。

另选地，比较块84可以针对两个频带中的每个频带计算相同参数的值。在这种情况下，计算的参数值可以与共同的阈值进行比较，或者可以与不同的相应阈值进行比较。例如，如果所选择的参数是音频频带和非音频频带中调制的峰值功率电平，则可以预期，即使在接收实时语音时，非音频频带中的功率电平也将低于音频频带中的功率电平，并且因此为比较所选择的阈值可以被设置为对于非音频频带分量的发音速率调制比对于音频频带分量的发音速率调制更低。

如果所接收的信号表示实时语音，则预期发音速率调制的量将超过相应的阈值，并且因此，如果发现参数的两个计算值都超过相应的阈值，则可以假定所接收的信号表示实时语音。相比之下，如果所计算的参数值中只有一个参数值超过相应的阈值，并且特别是如果非音频频带的计算的参数值未超过阈值，则可以假设所接收的信号不代表实时语音。

另选地，比较块84可以计算指示两个频带中的发音速率调制量之间的相似程度的参数值，例如皮尔逊相关系数。

作为进一步的替代，比较块84可以包括神经网络，该神经网络可以用于确定两个频带在发音速率处是否示出了足够相似的调制使得可以假定语音是实时的，或者它们在语音发音速率处是否示出了足够不同的调制使得可以假定所接收的语音已经通过声音再现装置重放并且不是实时语音。

如上所述，神经网络的输入可以是ARF块78、82在它们已经被下采样到例如50Hz的采样率然后被缓冲之后的输出信号。然后，可以将得到的样本集应用于卷积神经网络进行分类。

可以使用包括由包含实时语音的输入信号产生的ARF块的输出信号和由包含重放语音的输入信号产生的ARF块的输出信号的数据来训练神经网络，以便能够区分它们。训练数据还可以包括由输入信号产生的ARF块的输出信号，该输入信号包括第一说话者的实时语音的高频分量和第二说话者的实时语音的低频分量，使得神经网络能够识别也由对系统的攻击产生的这种输入。

因此，比较块84可以基于在预先确定的时间段期间收集的数据产生输出信号，例如在上述实施例中为1秒。此外，当接收到新数据时，该输出信号可以在每个接收到的样本之后重新生成，使得系统能够对输入形式的变化做出快速反应。另选地，可以在每个预先确定的时间段之后产生新的输出信号，例如在上述实施例中的每1秒之后，使得输出信号基于在前一秒期间接收的输入信号。另选地，可以在每个预先确定的时间段之后，例如在上述实施例中的每1秒之后，生成中间输出信号，其中基于在输入语音期间生成的中间输出信号，在输入语音信号结束之后生成最终输出信号。

图11是示出检测实时语音的方法的流程图。

该方法开始于步骤100，接收包含语音的信号。

在步骤102，获得所接收的信号的第一分量，即第一频带中的分量。第一频带可以包括音频频率。

所接收的信号的第一分量可以通过对所接收的信号进行低通滤波来获得。例如，可以通过利用具有在音频频带内的截止频率的滤波器对所接收的信号进行低通滤波来获得所接收的信号的第一分量。

在步骤104，获得所接收的信号的第二分量，即第二频带中的分量。第二频带可以高于第一频带。

所接收的信号的第二分量可以通过对所接收的信号进行高通滤波来获得。在这种情况下，第二频带可以包括超声频率，即高于人类听觉正常范围的频率。然而，第二频带也可以包括音频频率。因此，当通过对所接收的信号进行高通滤波获得所接收的信号的第二分量时，滤波器截止频率可以在10kHz-20kHz的范围内。

可以选择所接收的信号的第二分量，使得其包含实时语音可以与重放语音区分开的频率。例如，当期望检测由传统智能电话记录的或通过标准电视扬声器重放的语音时，第二分量包括10kKz-20kHz范围内的频率可能就足够了，因此通过该范围内的频率的带通滤波器或高通滤波器可能是合适的。当期望检测使用高保真记录设备记录的语音时，记录可以具有大于16kHz的采样率。当这样的记录通过高端扬声器重放时，该扬声器可以高保真度地再现高达100kHz范围内的极限频率的信号，因此第二分量可能必须包括20kHz-40kHz范围内的频率，以便将重放的语音与实时语音区分开。

在步骤106，检测所接收的信号的第一分量的调制。

检测所接收的信号的第一分量的调制可以包括检测所接收的信号的第一分量的第一包络，然后检测第一包络的分量。

在步骤108，检测所接收的信号的第二分量的调制。

类似地，检测所接收的信号的第二分量的调制可以包括检测所接收的信号的第二分量的第二包络，然后检测第二包络的分量。

更具体地，在步骤106和108中，可以在对应于语音发音速率的频带中检测所接收的信号的第一分量的调制，并且类似地，可以在对应于语音发音速率的频带中检测频带中的所接收的信号的第二分量的调制。

对应于语音发音的频带可以包括低于18Hz的频率。更具体地，语音发音频带可以包括5Hz-15Hz范围内的频率，但是其也可以包括该范围之外的频率。在其他示例中，语音发音频带可以是3Hz-9Hz、3Hz-11Hz、3Hz-14Hz、3Hz-18Hz、4Hz-9Hz、4Hz-11Hz、4Hz-14Hz、4Hz-18Hz、5Hz-7Hz、5Hz-9Hz、5Hz-11Hz或5Hz-14Hz。

在一些实施例中，输入信号可以由麦克风检测，然后以例如96kHz的采样率转换成数字信号，以确保保留所有感兴趣的信号分量。上述处理，即对所接收的信号进行滤波以产生第一分量和第二分量，以及例如在语音发音频带中检测这些分量的调制可以在数字域中以这种高采样率执行。

在这种情况下，如上所述，发音速率滤波器的输出信号可以被下采样，例如到50Hz或100Hz的采样率。

在其他实施例中，可以在模拟域中执行对所接收的信号的滤波以产生第一分量和第二分量，以及检测这些分量的调制。

在步骤110，比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制。

在步骤112，如果所接收的信号的第一分量的调制与所接收的信号的第二分量的调制相差超过一定量，则确定该语音可能不是实时语音。

在步骤110中，比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可包括获得与例如在语音发音速率下的所接收的信号的第一分量的调制量相关的第一参数，并且还获得与类似地在语音发音速率下的所接收的信号的第二分量的调制量相关的第二参数。

在这种情况下，在步骤112中，如果第一参数超过第一阈值并且第二参数没有超过第二阈值，则可以确定语音可能不是实时语音。

在步骤110中，比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可以包括获得作为所接收的信号的第一分量的调制(例如，在语音发音速率下)和所接收的信号的第二分量的调制(例如，在语音发音速率下)之间的相似性的度量的系数。

在步骤110中，比较所接收的信号的第一分量的调制和所接收的信号的第二分量的调制可以包括使用神经网络来测试所接收的信号的第一分量的调制的一系列样本(例如，在语音发音速率下)和所接收的信号的第二分量的调制的一系列样本(例如，在语音发音速率下)之间的相似性。

上述方法还可以包括获得所接收的信号在高于所述第一频带的第三频带中的第三分量，以及检测所接收的信号的第三分量的调制。

该方法然后可以包括比较所接收的信号的第二分量的调制和所接收的信号的第三分量的调制。然后可以基于比较所接收的信号的第二分量的调制和所接收的信号的第三分量的调制的结果来确定语音的源。

因此，一个示例可以是，所接收的信号的第一分量包括高达10kHz的第一频带中的信号，所接收的信号的第二分量包括20kHz以上的第二频带中的信号，并且所接收的信号的第三分量包括12kHz-16kHz的第三频带中的信号。

在这种情况下，如果所接收的信号的所有三个分量都包含显著水平的语音发音速率调制，则可以假定所接收的信号代表实时语音。

如果所接收的信号的第一分量包含显著水平的语音发音速率调制，但是所接收的信号的第二分量和第三分量两者都包含非常低水平的语音发音速率调制，则这可能表明所接收的信号表示已经由较差地再现高于约12kHz的频率的装置记录和/或通过该装置重放的语音。

然而，如果所接收的信号的第一分量和第三分量包含显著水平的语音发音速率调制，但是所接收的信号的第二分量包含非常低水平的语音发音速率调制，则这可能表明所接收的信号表示已经由较差地再现高于约20kHz的频率的装置记录和/或通过该装置重放的语音。

因此，所接收的信号的第二分量和第三分量的语音发音速率调制之间的比较允许对已经通过其记录和/或重放语音的装置的特性进行推断。

技术人员将认识到，上述设备和方法的一些方面可以被体现为例如位于诸如磁盘、CD-或DVD-ROM、已编程存储器(诸如只读存储器(固件))之类的非易失性载体介质上或位于诸如光学或电信号载体之类的数据载体上的处理器控制代码。对于许多应用，本发明的实施例将实施于DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此，代码可以包括常规的程序代码或微代码，或(例如)用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可再配置设备(诸如可再编程逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。技术人员将了解，所述代码可分布在彼此通信的多个耦合的部件之间。在适当情况下，还可以使用在现场(可再编程)可编程模拟阵列或类似装置上运行以便配置模拟硬件的代码来实施所述实施例。

注意，如本文中所使用的术语模块应当用于指代功能单元或块，其可以至少部分地由专用硬件部件(诸如定制定义电路)来实现和/或至少部分地由一个或多个软件处理器或在合适的通用处理器上运行的合适代码等来实施。模块本身可以包括其他模块或功能单元。模块可以由多个部件或子模块提供，所述部件或子模块不需要共置，而是可以设置在不同的集成电路系统上和/或在不同的处理器上运行。

应当注意，上述实施例示出而非限制本发明，并且本领域技术人员将能够在不脱离所附权利要求的范围的情况下设计许多替代实施例。词语“包括”不排除除了在权利要求中列出的要素或步骤之外的要素或步骤的存在，“一”或“一个”不排除多个，并且单个特征或其他单元可以履行在权利要求中叙述的几个单元的功能。权利要求中的任何附图标记或标签都不应被解释为限制它们的范围。

Claims

1.一种检测实时语音的方法，所述方法包括：

接收包含语音的信号；

获得所接收的信号在第一频带中的第一分量，其中所述第一频带包括音频频率；

获得所接收的信号在高于所述第一频带的第二频带中的第二分量；

检测所接收的信号的所述第一分量的调制；

检测所接收的信号的所述第二分量的调制；

比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制；以及

根据比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制的结果，确定所述语音是否是实时语音。

2.根据权利要求1所述的方法，其中获得所接收的信号的所述第一分量包括对所接收的信号进行低通滤波。

3.根据权利要求1或2所述的方法，其中获得所接收的信号的所述第二分量包括对所接收的信号进行高通滤波。

4.根据权利要求1至3中的一项所述的方法，其中所述第二频带包括超声频率。

5.根据权利要求1至4中的一项所述的方法，其中检测所接收的信号的所述第一分量的调制包括：

检测所接收的信号的所述第一分量的第一包络；以及

检测所述第一包络的分量。

6.根据权利要求1至5中的一项所述的方法，其中检测所接收的信号的所述第二分量的调制包括：

检测所接收的信号的所述第二分量的第二包络；以及

检测所述第二包络的分量。

7.根据任一前述权利要求所述的方法，其包括在对应于语音发音速率的频带中检测所接收的信号的所述第一分量和所接收的信号的所述第二分量的调制。

8.根据权利要求7所述的方法，其中所述语音发音频带包括低于18Hz的频率。

9.根据权利要求8所述的方法，其中所述语音发音频带包括5Hz-15Hz范围内的频率。

10.根据权利要求1至9中的一项所述的方法，其中比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制包括：

获得与所接收的信号的所述第一分量的调制量相关的第一参数；以及

获得与所接收的信号的所述第二分量的调制量相关的第二参数；并且

其中如果所接收的信号的所述第一分量的所述调制不同于所接收的信号的所述第二分量的所述调制，则确定所述语音可能不是实时语音包括：

如果所述第一参数超过第一阈值并且所述第二参数不超过第二阈值，则确定所述语音可能不是实时语音。

11.根据权利要求1至9中的一项所述的方法，其中比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制包括：

获得作为所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制之间的相似性的度量的系数。

12.根据权利要求1至9中的一项所述的方法，其中比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制包括：

使用神经网络来比较所接收的信号的所述第一分量的所述调制的一系列样本和所接收的信号的所述第二分量的所述调制的一系列样本。

13.根据任一前述权利要求所述的方法，其还包括：

检测所接收的信号的所述第三分量的调制；

比较所接收的信号的所述第二分量的所述调制和所接收的信号的所述第三分量的所述调制；以及

基于比较所接收的信号的所述第二分量的所述调制和所接收的信号的所述第三分量的所述调制的结果来确定所述语音的源。

14.根据任一前述权利要求所述的方法，其还包括：

检测所接收的信号中的所述语音的一个或多个声学类别；以及

其中基于所述语音的所检测的一个或多个声学类别来执行以下步骤：比较所接收的信号的所述第一分量的所述调制和所接收的信号的所述第二分量的所述调制；以及确定所述语音是否是实时语音。

15.根据权利要求14所述的方法，其中所述一个或多个声学类别包括清音语音和/或浊音语音。

16.一种用于检测实时语音的系统，其中所述系统被配置为执行方法，所述方法包括：

接收包含语音的信号；

检测所接收的信号的所述第一分量的调制；

检测所接收的信号的所述第二分量的调制；

17.一种装置，其包括根据权利要求16所述的系统。

18.根据权利要求17所述的装置，其中所述装置包括移动电话、音频播放器、视频播放器、移动计算平台、游戏装置、远程控制器装置、玩具、机器或家庭自动化控制器或家用电器。

19.一种非暂时性计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令在由处理器电路系统执行时使所述处理器电路系统执行方法，所述方法包括：

接收包含语音的信号；

检测所接收的信号的所述第一分量的调制；

检测所接收的信号的所述第二分量的调制；

20.一种装置，其包括根据权利要求19所述的非暂时性计算机可读存储介质。

21.根据权利要求20所述的装置，其中所述装置包括移动电话、音频播放器、视频播放器、移动计算平台、游戏装置、远程控制器装置、玩具、机器或家庭自动化控制器或家用电器。