CN107644651B

CN107644651B - 用于语音识别的电路和方法

Info

Publication number: CN107644651B
Application number: CN201710605515.8A
Authority: CN
Inventors: 保罗·吉莱蒂
Original assignee: Dolphin Design
Current assignee: Dolphin Design
Priority date: 2016-07-22
Filing date: 2017-07-24
Publication date: 2023-06-27
Anticipated expiration: 2037-07-24
Also published as: FR3054362B1; KR20180011015A; FR3054362A1; US10236000B2; CN107644651A; US20180025730A1

Abstract

本发明涉及一种用于语音识别的电路，其包括：声音检测电路(304)，其被配置为基于至少一个输入参数来检测输入音频信号(音频)中的声音信号的存在并且生成关于每个声音检测事件的激活信号(唤醒)；语音识别电路(310)，其被配置为由激活信号激活并且对输入音频信号执行语音识别，语音识别电路还被配置为基于语音识别来生成指示每个声音检测事件是真还是假的输出信号(真/假)；以及分析电路(320)，其被配置为基于语音识别电路(310)的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。

Description

用于语音识别的电路和方法

技术领域

本公开内容涉及使用声音活动检测的音频设备的领域，并且特别地涉及用于声音识别的电路和方法。

背景技术

通过减少便携式电子设备的功耗能够增加电池寿命。在被配置为捕获和处理声音信号的音频设备的情况下，为了减少功耗已经提出的一种技术是使用声音活动检测，使得某些处理电路仅仅在声音信号存在时被激活。在其他时间，这些处理电路可以断电，从而节约能量。

在声音检测和语音识别之间加以区别是重要。声音检测旨在生成指示声音信号是否存在的布尔信号。语音识别是对声音信号中的一个或多个词语的识别。

语音识别比声音检测复杂得多，并且因此倾向于明显更耗电。因此，已经提出仅仅在检测到声音信号时激活语音识别。然而，现有解决方案的难点是功耗的减少相对低。一方面，如果声音检测算法足够准确以仅仅在声音真正存在的情况下激活语音识别，这大体意味着声音检测算法将是复杂的并且因此具有相对高的功耗。另一方面，如果声音检测算法具有低功耗，这大体意味着它将具有相对高的假阳性输出率，以便保持足够的阳性预测值，意味着语音识别将比必要的更频繁地被激活，还导致相对高的功耗。

发明内容

本说明书的实施例的目的是至少部分地解决现有技术中的一个或多个难点。

根据一个方面，提供了一种用于语音识别的电路，其包括：声音检测电路，其被配置为基于至少一个输入参数来检测输入音频信号中的声音信号的存在并且生成关于每个声音检测事件的激活信号；语音识别电路，其被配置为由激活信号激活并且对输入音频信号执行语音识别，语音识别电路还被配置为基于语音识别来生成指示每个声音检测事件是真还是假的输出信号；以及分析电路，其被配置为基于语音识别电路的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。

根据一个实施例，分析电路适于确定表示指示由声音检测电路生成的检测事件的总数中的真检测事件率的真检测率的第一值。

根据一个实施例，分析电路被配置为基于第一值与第一阈值的比较和/或基于第一值是增加的还是减小的来生成控制信号。

根据一个实施例，分析电路还被配置为：生成表示由声音检测电路生成的检测事件的总数的第二值；并且将第二值与第二阈值进行比较和/或确定第二值是增加的还是减小的。

根据一个实施例，分析电路被配置为如果未超过第一阈值和/或第二阈值和/或如果第一值和/或第二值是减小的则修改控制信号以使声音检测电路更敏感。

根据一个实施例，分析电路被配置为：生成表示指示由声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第三值；并且将第三值与第三阈值进行比较和/或确定第三值是增加的还是减小的。

根据一个实施例，分析电路还被配置为如果超过第二阈值和/或第三阈值和/或如果第三值是增加的则修改控制信号以使声音检测电路更不敏感。

根据一个实施例，至少一个输入参数中的每个是以下参数中的一个：设置声音检测电路的一个或多个滤波器的一个或多个截止频率的参数；设置声音检测电路的一个或多个检测阈值的参数；设置一个或多个能量计算周期的参数；设置音频信号的零通道的阈值数的参数；设置一个或多个去抖时间的参数；以及设置要被应用到声音检测电路的一个或多个子电路的输出信号的加权的参数。

根据一个实施例，语音识别电路适于生成用于响应于语音识别事件而激活一个或多个另外的电路的另外的激活信号。

根据一个实施例，语音识别电路适于执行关键字识别。

根据另一方面，提供了一种语音识别的方法，其包括：由声音检测电路基于至少一个输入参数来检测输入音频信号中的声音信号的存在；由声音检测电路生成关于每个声音检测事件的激活信号；由激活信号激活语音识别电路；由语音识别电路对输入音频信号执行语音识别；由语音识别电路基于语音识别来生成指示每个声音检测事件是真还是假的输出信号；以及由分析电路基于语音识别电路的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。

根据一个实施例，该方法还包括：由分析电路生成表示指示由声音检测电路生成的检测事件的总数中的真检测事件率的真检测率和/或表示指示由声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第一值；以及由分析电路基于第一值与第一阈值的比较和/或基于第一值是增加的还是减小的来生成控制信号。

附图说明

前述和其他特征和优点将从通过说明而非限制给出的并且参考附图的实施例的以下详细描述中变得显而易见，其中：

图1示意性地图示了根据示例实施例的语音识别系统；

图2示意性地图示了根据又一示例实施例的语音识别系统；

图3示意性地图示了根据本公开内容的示例实施例的语音识别系统；

图4更详细地示意性地图示了根据示例实施例的图3的语音识别系统；

图5是图示了根据本公开内容的示例实施例的语音识别的方法中的操作的流程图；以及

图6示意性地图示了根据示例实现方式的声音检测电路。

具体实施方式

图1示意性地图示了语音识别系统100。系统100包括持续活动的收听系统(持续收听系统)102，其包括使用基于关键字的语音识别算法的语音识别电路(语音识别)104。电路104接收音频流(音频)106，并且当识别出一个或多个关键字时在线108上发送一个或多个命令信号(CMD)，一个或多个命令信号激活一个或多个另外的系统(系统)110。

图1的解决方案的缺点在于基于关键字的语音识别电路104是相对复杂和耗电的，并且因为它是持续活动的，所以功耗可能相对高。

图2示意性地图示了根据图1的语音识别系统的备选解决方案的语音识别系统200。系统200包括持续活动的收听系统(持续收听系统)202，其包括声音检测电路(声音检测)204。电路204接收音频流(音频)206，并且当检测到声音信号时，在线208上生成唤醒信号(唤醒)。唤醒信号激活语音识别电路(语音识别)210，其基于关键字识别。电路210还接收音频流(音频)，并且当识别出关键字时，在线212上生成一个或多个命令信号(CMD)，一个或多个命令信号激活一个或多个另外的系统(系统)214。

尽管图2的解决方案提供了语音识别电路210仅仅在检测到声音信号时被激活的优点，但是功耗可能仍然相对高。的确，如上面背景技术部分说明的，如果声音检测电路204足够准确以仅仅在声音真正存在的情况下激活语音识别电路210，则声音检测电路204可能是复杂的并且因此具有相对高的功耗。然而，如果声音检测电路204具有低功耗，这大体意味着它将具有相对高的假阳性输出率，以便保持足够的阳性预测值，意味着语音识别电路将比必要的更频繁地被激活，还导致相对高的功耗。

图3示意性地图示了根据本公开内容的示例实施例的语音识别系统300。例如，语音识别系统300形成电子设备(例如移动通信设备、笔记本或平板计算机等)的能够接收声音命令的部分，并且语音识别系统300被配置为将多个声音命令与音频信号区分开。

系统300例如包括持续活动的收听系统(持续收听系统)302，其包括声音检测电路(声音检测)304。电路304接收音频信号(音频)306，其例如由(图中未示出的)至少一个换能器生成，所述换能器例如是MEMS(微机电系统)。在一些实施例中，音频信号是数字信号，换能器的输出例如由模数转换器转换成数字信号。备选地，音频信号可以是模拟信号。

当检测到声音信号时电路304例如在线308上生成唤醒信号(唤醒)。唤醒信号激活语音识别电路(语音识别)310，其例如包括关键字识别。语音识别暗指对给定语言的一个或多个口语词语的声音信号中的识别。关键字识别例如涉及来自当在与在语音识别期间通常使用的词典相比时相对减少的词语的集合的一个或多个关键字的识别。例如，可以使用隐马尔科夫模型和神经网络来实现基于语音识别的关键字识别。例如，在A.Waibel的题为“Phoneme recognition using time-delay neural networks”的公开物中和在由Geoffrey Hinton的题为“Deep Neural Networks for Acoustic Modeling in SpeechRecognition:the Shared Views of Four Research groups”的公开物中更详细地进行描述，这两篇公开物的内容在法律允许的范围内通过引用并入本文。

例如，关键字识别算法适于在音频信号中检测一个或多个口语关键字，其例如对应于声音命令。电路310还接收音频信号(音频)306，并且当识别出声音时在线312上生成中断请求信号(CMD)，中断请求信号激活一个或多个另外的系统(系统)314。

持续收听系统302还包括参数校正电路(参数校正)316，其被配置为向声音检测电路304提供一个或多个修改的参数(参数)。由电路304应用的声音检测算法例如至少部分地基于以下参数中的一个或多个：

-指示低通或带通滤波器的一个或多个截止频率的一个或多个参数，其中，截止频率例如是信号幅度下降到小于其峰值的20％的频率；

-指示一个或多个检测阈值的一个或多个参数；

-指示音频信号的零通道的阈值数量的一个或多个参数。例如，基于零交叉的声音检测在Madiha Jalil等人的题为“Short-time energy,zero crossing rate andautocorrelation measurement for discriminating voiced and unvoiced segmentsof speech signal”(2013International Conference on Technological Advances inElectrical,Electronics and Computer Engineering(TAEECE))的公开物中和在B.Atal的题为“A pattern recognition approach to voiced-unvoiced-silenceclassification with applications to speech recognition”(IEEE Transactions onAcoustics Speech and Signal Processing(24(3)：201-212，1976年6月))的公开物中更详细地进行描述。

-指示一个或多个去抖时间的一个或多个参数。如本领域技术人员已知的，去抖功能防止在第一事件的特定“去抖时间”内对事件的另外触发；以及

-当生成检测决定的结果时，指示被应用到一个或多个子电路的输出信号的加权的一个或多个参数。

基于以上参数中的至少一个的声音检测算法在本领域中是已知的并且例如在公开为US20090055173、US20110125497和US20020116186的美国专利申请中更详细地进行讨论，其内容在法律允许的范围内通过引用并入本文。

作为简单的示例，声音检测电路304例如包括适于对输入音频信号进行滤波的低通滤波器，低通滤波器例如具有在15和20kHz之间的截止频率。此外，声音检测电路304例如包括适用于对滤波后的音频信号应用检测阈值的比较器，使得仅仅高于某个阈值的音频信号触发检测事件。在一些实施例中，低通滤波器的截止频率和/或检测阈值是检测电路的参数。

参数校正电路316例如基于从检测分析电路(检测分析)320提供在线318上的控制信号来确定要被应用到参数的修改。电路320例如继而在线308上接收由声音检测电路304生成的唤醒信号，以及在线322上接收由关键字识别电路310提供的每个声音检测事件的真或假状态(真/假)的指示。

对于由线308上的唤醒信号指示的每个检测事件，分析电路320例如能够确定语音识别电路310是否检测到语音，这继而指示检测事件是真还是假。在一些实施例中，分析电路320生成以下中的一个或多个并且向参数校正电路316提供以下中的一个或多个：

-真检测率，例如被计算为滑动时间窗口上的平均值，或者基于真检测事件的数量作为在给定时间周期内的检测事件的总数的一部分；

-假检测率，例如被计算为滑动时间窗口上的平均值，或者基于假检测事件的数量作为在给定时间周期内的检测事件的总数的一部分；以及

-在给定周期内的检测事件的总数，例如检测事件的平均数量或该平均值的导数。

在一些实施例中，参数校正电路被配置为基于真检测率、假检测率和/或总检测率与阈值的比较和/或基于真检测率、假检测率和/或总检测率是增加的还是减小的来更新一个或多个参数。

图4更详细地示意性地图示了图3的语音识别系统320的部分，并且特别地更详细地图示了检测分析电路320。检测分析电路320例如包括总检测分析电路(总检测分析)402，其例如基于线308上的唤醒信号来对检测事件进行计数，并且例如在输出线404上提供检测到的事件率。分析电路320还包括例如真/假检测分析电路(真/假检测分析)406，其例如基于语音识别电路310的输出线322来对真检测事件和/或假检测事件进行计数，并且例如在输出线408上提供真检测率和/或假检测率。

总检测率和真检测率和/或假检测率例如被提供到参数更新电路(参数更新)410，其例如在线318上为持续收听系统302生成参数控制信号。

现在参考图5将更详细地描述图4的电路的操作。

图5是图示了根据本公开内容的示例实施例的语音识别的方法中的操作的流程图。

该方法在操作501开始，其中确定声音检测事件是否已经发生，换句话说，检测到的音频信号是否被解释为声音信号。如果不是，重复操作501使得有输入音频信号的持续收听。如果声音检测事件发生，则下一操作是502。

在操作502中，例如更新关于检测到的事件的统计。例如基于检测事件和基于语音识别电路310响应于检测事件的真输出信号/假输出信号来更新总检测事件率和/或真检测率和/或假检测率。

在操作503中，然后确定检测到的事件是真还是假，换句话说，它是真的还是假的对应于语音。例如，在一些实施例中，通过语音识别电路310对音频信号中的任何可识别词语的检测指示真检测事件，然而通过语音识别电路310在给定时间窗口内对不可识别的词语的检测指示假检测事件。

在操作503中的真检测事件的情况下，下一操作是例如504，其中例如更新真检测率。在操作505中，用于声音检测的至少一个参数例如基于更新的统计来更新。

在操作503中的假检测事件的情况下，下一操作是例如506，其中例如更新假检测率，并且然后在操作507中，例如，关键字检测算法例如通过掉电语音识别电路310来掉电。该方法然后例如转到操作505，其中再次地，用于声音检测的至少一个参数例如基于更新的统计来更新。

操作505例如涉及对于给定的检测参数，应用以下算法：

-如果真检测率在第一定义阈值之下或者如果总检测率在第二定义阈值之下，则修改检测阈值参数以便增大持续收听系统的检测灵敏度；

-否则如果假检测率高于第一定义阈值或另一阈值并且如果它是增加的并且如果总检测率高于第二定义阈值或另一阈值，则修改检测阈值参数以便减小持续收听系统的灵敏度。

减小/增加的命令能够与检测率的变化或检测率与定义的阈值之间的差成比例。

在定义零通道的阈值数量的检测参数的情况下，能够应用上述算法，除了例如使用相对阈值，使得基于零交叉率的变化来做出检测决定。

在一些实施例中，不同的阈值被加权，并且将增大或减小参数的命令应用于所有参数或遵循特定优先级顺序。

在操作505之后，该方法例如返回到操作501。

图6示意性地图示了根据示例实施例的持续收听系统的声音检测电路304。

线306上的音频信号AUDIO例如与分别由控制滤波器的至少一个截止频率的参数F_CO1、参数F_CO2控制的滤波器(滤波器1)602和(滤波器2)604并行提供。截止频率是例如在其处滤波器的输出信号下降至或上升至其峰值的至少50％的频率。在一些实施例中，滤波器602、604中的每个具有大约4kHz的高截止频率。备选地，滤波器602具有大约20kHz的高截止频率F_CO1，并且滤波器604具有分别定义通带的200Hz和4kHz的低截止频率和高截止频率。

滤波器602的输出例如耦合到长期能量计算电路(长期能量计算)606并且滤波器604的输出例如耦合到短期能量计算电路(短期能量计算)608。电路606和电路608分别由定义能量计算周期的持续时间的参数T_A1、参数T_A2控制。长期计算电路606生成表示音频信号的总能量水平的信号，其包括背景噪声。短期计算电路608生成表示例如源自声音信号的能量波动的信号。电路606和电路608的输出例如耦合到比较器(比较器)610，其将信号之间的差与阈值参数THRESHOLD进行比较。如果差大于阈值，则在比较器的输出处触发事件，并且该信号例如耦合到去抖滤波器(去抖滤波器)612，其例如防止在由另外的参数T_DB定义的某个去抖时间内的重复事件。去抖滤波器612的输出例如在线308上提供唤醒信号。

参数F_CO1、参数F_CO2、参数T_A1、参数T_A2、参数THRESHOLD和参数T_DB中的一个或多个例如由图3的参数校正电路316生成，以便修改声音检测电路的灵敏度。

当然，图6的电路提供仅一个示例，并且在备选实施例中可以使用备选电路，其例如包括关于图6的实施例的附加电路和/或省略电路。

本文描述的实施例的优点在于能够通过基于语音识别的结果修改声音检测算法的一个或多个参数来改善相对简单的声音检测算法的准确度。

本文描述的实施例的另一个优点在于能够将相对简单的声音检测系统自动校准到不同的使用条件。

以这种方式，能够提供具有相对低的假阳性事件率的相对低功率的声音检测电路，从而防止语音识别电路的高消耗。

因此描述了至少一个说明性实施例，本领域技术人员将容易想到各种更改、修改和改进。例如，对于本领域技术人员显而易见的是，尽管已经提供了应用于声音检测电路的参数的特定示例，但是还可以附加地或备选地应用其他参数。

Claims

1.一种用于语音识别的电路，包括：

声音检测电路(304)，其被配置为基于至少一个输入参数来检测输入音频信号中的声音信号的存在并且生成关于每个声音检测事件的激活信号；

语音识别电路(310)，其被配置为由所述激活信号激活并且对所述输入音频信号执行语音识别，所述语音识别电路还被配置为基于所述语音识别来生成指示每个声音检测事件是真还是假的输出信号；以及

分析电路(320)，其被配置为：

生成表示指示由所述声音检测电路(304)生成的检测事件的总数中的真检测事件率的真检测率的第一值和/或表示指示由所述声音检测电路(304)生成的检测事件的总数中的假检测事件率的假检测率的第二值；以及

基于所述第一值与第一阈值的比较或所述第二值与第二阈值的比较和/或基于所述第一值或所述第二值是增加的还是减小的来生成用于修改所述输入参数中的一个或多个的控制信号。

2.根据权利要求1所述的电路，其中，所述分析电路还被配置为：

生成表示由所述声音检测电路(304)生成的检测事件的总数的第三值；以及

将所述第三值与第三阈值进行比较和/或确定所述第三值是增加的还是减小的。

3.根据权利要求2所述的电路，其中，所述分析电路(320)被配置为如果未超过所述第一阈值和/或所述第三阈值和/或如果所述第一值和/或所述第三值是减小的则修改所述控制信号以使所述声音检测电路更敏感。

4.根据权利要求3所述的电路，其中，所述分析电路还被配置为如果超过所述第二阈值和/或所述第三阈值和/或如果所述第二值是增加的则修改所述控制信号以使所述声音检测电路更不敏感。

5.根据权利要求1所述的电路，其中，所述至少一个输入参数中的每个是以下参数中的一个：

-设置所述声音检测电路(304)的一个或多个滤波器的一个或多个截止频率的参数；

-设置所述声音检测电路(304)的一个或多个检测阈值的参数；

-设置一个或多个能量计算周期的参数；

-设置所述音频信号的零通道的阈值数的参数；

-设置一个或多个去抖时间的参数；以及

-设置要被应用到所述声音检测电路(304)的一个或多个子电路的输出信号的加权的参数。

6.根据权利要求1所述的电路，其中，所述语音识别电路(310)适于生成用于响应于语音识别事件而激活一个或多个另外的电路的另外的激活信号。

7.根据权利要求6所述的电路，其中，所述语音识别电路适于执行关键字识别。

8.一种语音识别的方法，包括：

由声音检测电路(304)基于至少一个输入参数来检测输入音频信号中的声音信号的存在；

由所述声音检测电路(304)生成关于每个声音检测事件的激活信号；

由所述激活信号激活语音识别电路(310)；

由所述语音识别电路对所述输入音频信号执行语音识别；

由所述语音识别电路基于所述语音识别来生成指示每个声音检测事件是真还是假的输出信号；由分析电路生成表示指示由所述声音检测电路生成的检测事件的总数中的真检测事件率的真检测率的第一值和/或表示指示由所述声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第二值；以及

由分析电路(320)基于所述第一值与第一阈值的比较或所述第二值与第二阈值的比较和/或基于所述第一值或所述第二值是增加的还是减小的来生成用于修改所述输入参数中的一个或多个的控制信号。