CN107644651B - 用于语音识别的电路和方法 - Google Patents

用于语音识别的电路和方法 Download PDF

Info

Publication number
CN107644651B
CN107644651B CN201710605515.8A CN201710605515A CN107644651B CN 107644651 B CN107644651 B CN 107644651B CN 201710605515 A CN201710605515 A CN 201710605515A CN 107644651 B CN107644651 B CN 107644651B
Authority
CN
China
Prior art keywords
circuit
speech recognition
detection
value
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710605515.8A
Other languages
English (en)
Other versions
CN107644651A (zh
Inventor
保罗·吉莱蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolphin Design
Original Assignee
Dolphin Design
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolphin Design filed Critical Dolphin Design
Publication of CN107644651A publication Critical patent/CN107644651A/zh
Application granted granted Critical
Publication of CN107644651B publication Critical patent/CN107644651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

本发明涉及一种用于语音识别的电路,其包括:声音检测电路(304),其被配置为基于至少一个输入参数来检测输入音频信号(音频)中的声音信号的存在并且生成关于每个声音检测事件的激活信号(唤醒);语音识别电路(310),其被配置为由激活信号激活并且对输入音频信号执行语音识别,语音识别电路还被配置为基于语音识别来生成指示每个声音检测事件是真还是假的输出信号(真/假);以及分析电路(320),其被配置为基于语音识别电路(310)的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。

Description

用于语音识别的电路和方法
技术领域
本公开内容涉及使用声音活动检测的音频设备的领域,并且特别地涉及用于声音识别的电路和方法。
背景技术
通过减少便携式电子设备的功耗能够增加电池寿命。在被配置为捕获和处理声音信号的音频设备的情况下,为了减少功耗已经提出的一种技术是使用声音活动检测,使得某些处理电路仅仅在声音信号存在时被激活。在其他时间,这些处理电路可以断电,从而节约能量。
在声音检测和语音识别之间加以区别是重要。声音检测旨在生成指示声音信号是否存在的布尔信号。语音识别是对声音信号中的一个或多个词语的识别。
语音识别比声音检测复杂得多,并且因此倾向于明显更耗电。因此,已经提出仅仅在检测到声音信号时激活语音识别。然而,现有解决方案的难点是功耗的减少相对低。一方面,如果声音检测算法足够准确以仅仅在声音真正存在的情况下激活语音识别,这大体意味着声音检测算法将是复杂的并且因此具有相对高的功耗。另一方面,如果声音检测算法具有低功耗,这大体意味着它将具有相对高的假阳性输出率,以便保持足够的阳性预测值,意味着语音识别将比必要的更频繁地被激活,还导致相对高的功耗。
发明内容
本说明书的实施例的目的是至少部分地解决现有技术中的一个或多个难点。
根据一个方面,提供了一种用于语音识别的电路,其包括:声音检测电路,其被配置为基于至少一个输入参数来检测输入音频信号中的声音信号的存在并且生成关于每个声音检测事件的激活信号;语音识别电路,其被配置为由激活信号激活并且对输入音频信号执行语音识别,语音识别电路还被配置为基于语音识别来生成指示每个声音检测事件是真还是假的输出信号;以及分析电路,其被配置为基于语音识别电路的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。
根据一个实施例,分析电路适于确定表示指示由声音检测电路生成的检测事件的总数中的真检测事件率的真检测率的第一值。
根据一个实施例,分析电路被配置为基于第一值与第一阈值的比较和/或基于第一值是增加的还是减小的来生成控制信号。
根据一个实施例,分析电路还被配置为:生成表示由声音检测电路生成的检测事件的总数的第二值;并且将第二值与第二阈值进行比较和/或确定第二值是增加的还是减小的。
根据一个实施例,分析电路被配置为如果未超过第一阈值和/或第二阈值和/或如果第一值和/或第二值是减小的则修改控制信号以使声音检测电路更敏感。
根据一个实施例,分析电路被配置为:生成表示指示由声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第三值;并且将第三值与第三阈值进行比较和/或确定第三值是增加的还是减小的。
根据一个实施例,分析电路还被配置为如果超过第二阈值和/或第三阈值和/或如果第三值是增加的则修改控制信号以使声音检测电路更不敏感。
根据一个实施例,至少一个输入参数中的每个是以下参数中的一个:设置声音检测电路的一个或多个滤波器的一个或多个截止频率的参数;设置声音检测电路的一个或多个检测阈值的参数;设置一个或多个能量计算周期的参数;设置音频信号的零通道的阈值数的参数;设置一个或多个去抖时间的参数;以及设置要被应用到声音检测电路的一个或多个子电路的输出信号的加权的参数。
根据一个实施例,语音识别电路适于生成用于响应于语音识别事件而激活一个或多个另外的电路的另外的激活信号。
根据一个实施例,语音识别电路适于执行关键字识别。
根据另一方面,提供了一种语音识别的方法,其包括:由声音检测电路基于至少一个输入参数来检测输入音频信号中的声音信号的存在;由声音检测电路生成关于每个声音检测事件的激活信号;由激活信号激活语音识别电路;由语音识别电路对输入音频信号执行语音识别;由语音识别电路基于语音识别来生成指示每个声音检测事件是真还是假的输出信号;以及由分析电路基于语音识别电路的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。
根据一个实施例,该方法还包括:由分析电路生成表示指示由声音检测电路生成的检测事件的总数中的真检测事件率的真检测率和/或表示指示由声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第一值;以及由分析电路基于第一值与第一阈值的比较和/或基于第一值是增加的还是减小的来生成控制信号。
附图说明
前述和其他特征和优点将从通过说明而非限制给出的并且参考附图的实施例的以下详细描述中变得显而易见,其中:
图1示意性地图示了根据示例实施例的语音识别系统;
图2示意性地图示了根据又一示例实施例的语音识别系统;
图3示意性地图示了根据本公开内容的示例实施例的语音识别系统;
图4更详细地示意性地图示了根据示例实施例的图3的语音识别系统;
图5是图示了根据本公开内容的示例实施例的语音识别的方法中的操作的流程图;以及
图6示意性地图示了根据示例实现方式的声音检测电路。
具体实施方式
图1示意性地图示了语音识别系统100。系统100包括持续活动的收听系统(持续收听系统)102,其包括使用基于关键字的语音识别算法的语音识别电路(语音识别)104。电路104接收音频流(音频)106,并且当识别出一个或多个关键字时在线108上发送一个或多个命令信号(CMD),一个或多个命令信号激活一个或多个另外的系统(系统)110。
图1的解决方案的缺点在于基于关键字的语音识别电路104是相对复杂和耗电的,并且因为它是持续活动的,所以功耗可能相对高。
图2示意性地图示了根据图1的语音识别系统的备选解决方案的语音识别系统200。系统200包括持续活动的收听系统(持续收听系统)202,其包括声音检测电路(声音检测)204。电路204接收音频流(音频)206,并且当检测到声音信号时,在线208上生成唤醒信号(唤醒)。唤醒信号激活语音识别电路(语音识别)210,其基于关键字识别。电路210还接收音频流(音频),并且当识别出关键字时,在线212上生成一个或多个命令信号(CMD),一个或多个命令信号激活一个或多个另外的系统(系统)214。
尽管图2的解决方案提供了语音识别电路210仅仅在检测到声音信号时被激活的优点,但是功耗可能仍然相对高。的确,如上面背景技术部分说明的,如果声音检测电路204足够准确以仅仅在声音真正存在的情况下激活语音识别电路210,则声音检测电路204可能是复杂的并且因此具有相对高的功耗。然而,如果声音检测电路204具有低功耗,这大体意味着它将具有相对高的假阳性输出率,以便保持足够的阳性预测值,意味着语音识别电路将比必要的更频繁地被激活,还导致相对高的功耗。
图3示意性地图示了根据本公开内容的示例实施例的语音识别系统300。例如,语音识别系统300形成电子设备(例如移动通信设备、笔记本或平板计算机等)的能够接收声音命令的部分,并且语音识别系统300被配置为将多个声音命令与音频信号区分开。
系统300例如包括持续活动的收听系统(持续收听系统)302,其包括声音检测电路(声音检测)304。电路304接收音频信号(音频)306,其例如由(图中未示出的)至少一个换能器生成,所述换能器例如是MEMS(微机电系统)。在一些实施例中,音频信号是数字信号,换能器的输出例如由模数转换器转换成数字信号。备选地,音频信号可以是模拟信号。
当检测到声音信号时电路304例如在线308上生成唤醒信号(唤醒)。唤醒信号激活语音识别电路(语音识别)310,其例如包括关键字识别。语音识别暗指对给定语言的一个或多个口语词语的声音信号中的识别。关键字识别例如涉及来自当在与在语音识别期间通常使用的词典相比时相对减少的词语的集合的一个或多个关键字的识别。例如,可以使用隐马尔科夫模型和神经网络来实现基于语音识别的关键字识别。例如,在A.Waibel的题为“Phoneme recognition using time-delay neural networks”的公开物中和在由Geoffrey Hinton的题为“Deep Neural Networks for Acoustic Modeling in SpeechRecognition:the Shared Views of Four Research groups”的公开物中更详细地进行描述,这两篇公开物的内容在法律允许的范围内通过引用并入本文。
例如,关键字识别算法适于在音频信号中检测一个或多个口语关键字,其例如对应于声音命令。电路310还接收音频信号(音频)306,并且当识别出声音时在线312上生成中断请求信号(CMD),中断请求信号激活一个或多个另外的系统(系统)314。
持续收听系统302还包括参数校正电路(参数校正)316,其被配置为向声音检测电路304提供一个或多个修改的参数(参数)。由电路304应用的声音检测算法例如至少部分地基于以下参数中的一个或多个:
-指示低通或带通滤波器的一个或多个截止频率的一个或多个参数,其中,截止频率例如是信号幅度下降到小于其峰值的20%的频率;
-指示一个或多个检测阈值的一个或多个参数;
-指示音频信号的零通道的阈值数量的一个或多个参数。例如,基于零交叉的声音检测在Madiha Jalil等人的题为“Short-time energy,zero crossing rate andautocorrelation measurement for discriminating voiced and unvoiced segmentsof speech signal”(2013International Conference on Technological Advances inElectrical,Electronics and Computer Engineering(TAEECE))的公开物中和在B.Atal的题为“A pattern recognition approach to voiced-unvoiced-silenceclassification with applications to speech recognition”(IEEE Transactions onAcoustics Speech and Signal Processing(24(3):201-212,1976年6月))的公开物中更详细地进行描述。
-指示一个或多个去抖时间的一个或多个参数。如本领域技术人员已知的,去抖功能防止在第一事件的特定“去抖时间”内对事件的另外触发;以及
-当生成检测决定的结果时,指示被应用到一个或多个子电路的输出信号的加权的一个或多个参数。
基于以上参数中的至少一个的声音检测算法在本领域中是已知的并且例如在公开为US20090055173、US20110125497和US20020116186的美国专利申请中更详细地进行讨论,其内容在法律允许的范围内通过引用并入本文。
作为简单的示例,声音检测电路304例如包括适于对输入音频信号进行滤波的低通滤波器,低通滤波器例如具有在15和20kHz之间的截止频率。此外,声音检测电路304例如包括适用于对滤波后的音频信号应用检测阈值的比较器,使得仅仅高于某个阈值的音频信号触发检测事件。在一些实施例中,低通滤波器的截止频率和/或检测阈值是检测电路的参数。
参数校正电路316例如基于从检测分析电路(检测分析)320提供在线318上的控制信号来确定要被应用到参数的修改。电路320例如继而在线308上接收由声音检测电路304生成的唤醒信号,以及在线322上接收由关键字识别电路310提供的每个声音检测事件的真或假状态(真/假)的指示。
对于由线308上的唤醒信号指示的每个检测事件,分析电路320例如能够确定语音识别电路310是否检测到语音,这继而指示检测事件是真还是假。在一些实施例中,分析电路320生成以下中的一个或多个并且向参数校正电路316提供以下中的一个或多个:
-真检测率,例如被计算为滑动时间窗口上的平均值,或者基于真检测事件的数量作为在给定时间周期内的检测事件的总数的一部分;
-假检测率,例如被计算为滑动时间窗口上的平均值,或者基于假检测事件的数量作为在给定时间周期内的检测事件的总数的一部分;以及
-在给定周期内的检测事件的总数,例如检测事件的平均数量或该平均值的导数。
在一些实施例中,参数校正电路被配置为基于真检测率、假检测率和/或总检测率与阈值的比较和/或基于真检测率、假检测率和/或总检测率是增加的还是减小的来更新一个或多个参数。
图4更详细地示意性地图示了图3的语音识别系统320的部分,并且特别地更详细地图示了检测分析电路320。检测分析电路320例如包括总检测分析电路(总检测分析)402,其例如基于线308上的唤醒信号来对检测事件进行计数,并且例如在输出线404上提供检测到的事件率。分析电路320还包括例如真/假检测分析电路(真/假检测分析)406,其例如基于语音识别电路310的输出线322来对真检测事件和/或假检测事件进行计数,并且例如在输出线408上提供真检测率和/或假检测率。
总检测率和真检测率和/或假检测率例如被提供到参数更新电路(参数更新)410,其例如在线318上为持续收听系统302生成参数控制信号。
现在参考图5将更详细地描述图4的电路的操作。
图5是图示了根据本公开内容的示例实施例的语音识别的方法中的操作的流程图。
该方法在操作501开始,其中确定声音检测事件是否已经发生,换句话说,检测到的音频信号是否被解释为声音信号。如果不是,重复操作501使得有输入音频信号的持续收听。如果声音检测事件发生,则下一操作是502。
在操作502中,例如更新关于检测到的事件的统计。例如基于检测事件和基于语音识别电路310响应于检测事件的真输出信号/假输出信号来更新总检测事件率和/或真检测率和/或假检测率。
在操作503中,然后确定检测到的事件是真还是假,换句话说,它是真的还是假的对应于语音。例如,在一些实施例中,通过语音识别电路310对音频信号中的任何可识别词语的检测指示真检测事件,然而通过语音识别电路310在给定时间窗口内对不可识别的词语的检测指示假检测事件。
在操作503中的真检测事件的情况下,下一操作是例如504,其中例如更新真检测率。在操作505中,用于声音检测的至少一个参数例如基于更新的统计来更新。
在操作503中的假检测事件的情况下,下一操作是例如506,其中例如更新假检测率,并且然后在操作507中,例如,关键字检测算法例如通过掉电语音识别电路310来掉电。该方法然后例如转到操作505,其中再次地,用于声音检测的至少一个参数例如基于更新的统计来更新。
操作505例如涉及对于给定的检测参数,应用以下算法:
-如果真检测率在第一定义阈值之下或者如果总检测率在第二定义阈值之下,则修改检测阈值参数以便增大持续收听系统的检测灵敏度;
-否则如果假检测率高于第一定义阈值或另一阈值并且如果它是增加的并且如果总检测率高于第二定义阈值或另一阈值,则修改检测阈值参数以便减小持续收听系统的灵敏度。
减小/增加的命令能够与检测率的变化或检测率与定义的阈值之间的差成比例。
在定义零通道的阈值数量的检测参数的情况下,能够应用上述算法,除了例如使用相对阈值,使得基于零交叉率的变化来做出检测决定。
在一些实施例中,不同的阈值被加权,并且将增大或减小参数的命令应用于所有参数或遵循特定优先级顺序。
在操作505之后,该方法例如返回到操作501。
图6示意性地图示了根据示例实施例的持续收听系统的声音检测电路304。
线306上的音频信号AUDIO例如与分别由控制滤波器的至少一个截止频率的参数FCO1、参数FCO2控制的滤波器(滤波器1)602和(滤波器2)604并行提供。截止频率是例如在其处滤波器的输出信号下降至或上升至其峰值的至少50%的频率。在一些实施例中,滤波器602、604中的每个具有大约4kHz的高截止频率。备选地,滤波器602具有大约20kHz的高截止频率FCO1,并且滤波器604具有分别定义通带的200Hz和4kHz的低截止频率和高截止频率。
滤波器602的输出例如耦合到长期能量计算电路(长期能量计算)606并且滤波器604的输出例如耦合到短期能量计算电路(短期能量计算)608。电路606和电路608分别由定义能量计算周期的持续时间的参数TA1、参数TA2控制。长期计算电路606生成表示音频信号的总能量水平的信号,其包括背景噪声。短期计算电路608生成表示例如源自声音信号的能量波动的信号。电路606和电路608的输出例如耦合到比较器(比较器)610,其将信号之间的差与阈值参数THRESHOLD进行比较。如果差大于阈值,则在比较器的输出处触发事件,并且该信号例如耦合到去抖滤波器(去抖滤波器)612,其例如防止在由另外的参数TDB定义的某个去抖时间内的重复事件。去抖滤波器612的输出例如在线308上提供唤醒信号。
参数FCO1、参数FCO2、参数TA1、参数TA2、参数THRESHOLD和参数TDB中的一个或多个例如由图3的参数校正电路316生成,以便修改声音检测电路的灵敏度。
当然,图6的电路提供仅一个示例,并且在备选实施例中可以使用备选电路,其例如包括关于图6的实施例的附加电路和/或省略电路。
本文描述的实施例的优点在于能够通过基于语音识别的结果修改声音检测算法的一个或多个参数来改善相对简单的声音检测算法的准确度。
本文描述的实施例的另一个优点在于能够将相对简单的声音检测系统自动校准到不同的使用条件。
以这种方式,能够提供具有相对低的假阳性事件率的相对低功率的声音检测电路,从而防止语音识别电路的高消耗。
因此描述了至少一个说明性实施例,本领域技术人员将容易想到各种更改、修改和改进。例如,对于本领域技术人员显而易见的是,尽管已经提供了应用于声音检测电路的参数的特定示例,但是还可以附加地或备选地应用其他参数。

Claims (8)

1.一种用于语音识别的电路,包括:
声音检测电路(304),其被配置为基于至少一个输入参数来检测输入音频信号中的声音信号的存在并且生成关于每个声音检测事件的激活信号;
语音识别电路(310),其被配置为由所述激活信号激活并且对所述输入音频信号执行语音识别,所述语音识别电路还被配置为基于所述语音识别来生成指示每个声音检测事件是真还是假的输出信号;以及
分析电路(320),其被配置为:
生成表示指示由所述声音检测电路(304)生成的检测事件的总数中的真检测事件率的真检测率的第一值和/或表示指示由所述声音检测电路(304)生成的检测事件的总数中的假检测事件率的假检测率的第二值;以及
基于所述第一值与第一阈值的比较或所述第二值与第二阈值的比较和/或基于所述第一值或所述第二值是增加的还是减小的来生成用于修改所述输入参数中的一个或多个的控制信号。
2.根据权利要求1所述的电路,其中,所述分析电路还被配置为:
生成表示由所述声音检测电路(304)生成的检测事件的总数的第三值;以及
将所述第三值与第三阈值进行比较和/或确定所述第三值是增加的还是减小的。
3.根据权利要求2所述的电路,其中,所述分析电路(320)被配置为如果未超过所述第一阈值和/或所述第三阈值和/或如果所述第一值和/或所述第三值是减小的则修改所述控制信号以使所述声音检测电路更敏感。
4.根据权利要求3所述的电路,其中,所述分析电路还被配置为如果超过所述第二阈值和/或所述第三阈值和/或如果所述第二值是增加的则修改所述控制信号以使所述声音检测电路更不敏感。
5.根据权利要求1所述的电路,其中,所述至少一个输入参数中的每个是以下参数中的一个:
-设置所述声音检测电路(304)的一个或多个滤波器的一个或多个截止频率的参数;
-设置所述声音检测电路(304)的一个或多个检测阈值的参数;
-设置一个或多个能量计算周期的参数;
-设置所述音频信号的零通道的阈值数的参数;
-设置一个或多个去抖时间的参数;以及
-设置要被应用到所述声音检测电路(304)的一个或多个子电路的输出信号的加权的参数。
6.根据权利要求1所述的电路,其中,所述语音识别电路(310)适于生成用于响应于语音识别事件而激活一个或多个另外的电路的另外的激活信号。
7.根据权利要求6所述的电路,其中,所述语音识别电路适于执行关键字识别。
8.一种语音识别的方法,包括:
由声音检测电路(304)基于至少一个输入参数来检测输入音频信号中的声音信号的存在;
由所述声音检测电路(304)生成关于每个声音检测事件的激活信号;
由所述激活信号激活语音识别电路(310);
由所述语音识别电路对所述输入音频信号执行语音识别;
由所述语音识别电路基于所述语音识别来生成指示每个声音检测事件是真还是假的输出信号;由分析电路生成表示指示由所述声音检测电路生成的检测事件的总数中的真检测事件率的真检测率的第一值和/或表示指示由所述声音检测电路生成的检测事件的总数中的假检测事件率的假检测率的第二值;以及
由分析电路(320)基于所述第一值与第一阈值的比较或所述第二值与第二阈值的比较和/或基于所述第一值或所述第二值是增加的还是减小的来生成用于修改所述输入参数中的一个或多个的控制信号。
CN201710605515.8A 2016-07-22 2017-07-24 用于语音识别的电路和方法 Active CN107644651B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR16/57034 2016-07-22
FR1657034A FR3054362B1 (fr) 2016-07-22 2016-07-22 Circuit et procede de reconnaissance de parole

Publications (2)

Publication Number Publication Date
CN107644651A CN107644651A (zh) 2018-01-30
CN107644651B true CN107644651B (zh) 2023-06-27

Family

ID=57233619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710605515.8A Active CN107644651B (zh) 2016-07-22 2017-07-24 用于语音识别的电路和方法

Country Status (4)

Country Link
US (1) US10236000B2 (zh)
KR (1) KR20180011015A (zh)
CN (1) CN107644651B (zh)
FR (1) FR3054362B1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3327756B1 (en) * 2016-11-24 2019-11-06 Melexis Technologies NV Die edge integrity monitoring system and corresponding method
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
JP2020115206A (ja) 2019-01-07 2020-07-30 シナプティクス インコーポレイテッド システム及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2515526A (en) * 2013-06-26 2014-12-31 Wolfson Microelectronics Plc Speech Recognition
CN104252860A (zh) * 2013-06-26 2014-12-31 沃福森微电子股份有限公司 语音识别
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US20020116186A1 (en) 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
CN101379548B (zh) 2006-02-10 2012-07-04 艾利森电话股份有限公司 语音检测器和用于其中抑制子频带的方法
US20110125497A1 (en) 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
EP2550651B1 (en) * 2010-03-26 2016-06-15 Nuance Communications, Inc. Context based voice activity detection sensitivity
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9373393B2 (en) * 2014-06-05 2016-06-21 Integrated Silicon Solution, Inc. Resistive memory device implementing selective memory cell refresh
US9959887B2 (en) * 2016-03-08 2018-05-01 International Business Machines Corporation Multi-pass speech activity detection strategy to improve automatic speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2515526A (en) * 2013-06-26 2014-12-31 Wolfson Microelectronics Plc Speech Recognition
CN104252860A (zh) * 2013-06-26 2014-12-31 沃福森微电子股份有限公司 语音识别
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
音频事件检测算法研究;苏春玲;《中国优秀硕士学位论文全文数据库》;20150515;全文 *

Also Published As

Publication number Publication date
FR3054362B1 (fr) 2022-02-04
KR20180011015A (ko) 2018-01-31
FR3054362A1 (fr) 2018-01-26
US10236000B2 (en) 2019-03-19
CN107644651A (zh) 2018-01-30
US20180025730A1 (en) 2018-01-25

Similar Documents

Publication Publication Date Title
US11683632B2 (en) Automatic speech recognition triggering system
CN108198548B (zh) 一种语音唤醒方法及其系统
CN107644651B (zh) 用于语音识别的电路和方法
KR102288928B1 (ko) 성도 면적 정보를 이용한 음성 활동 감지
CN111880856B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN108172242B (zh) 一种改进的蓝牙智能云音箱语音交互端点检测方法
KR20100081587A (ko) 로봇의 소리 인식 장치 및 그 제어 방법
WO1997024710A1 (en) Communications device responsive to spoken commands
US20220122592A1 (en) Energy efficient custom deep learning circuits for always-on embedded applications
KR20230020523A (ko) 자동 핫워드 임계치 튜닝
US10276180B2 (en) Audio command adaptive processing system and method
KR20230104712A (ko) 개인화된 네거티브에 기초한 핫워드 인식 적응
US11594244B2 (en) Apparatus and method for voice event detection
EP2163124B1 (en) Fully learning classification system and method for hearing aids
CN111755029B (zh) 语音处理方法、装置、存储介质以及电子设备
TWI684912B (zh) 語音喚醒裝置及方法
EP4050603A1 (en) Voice activity detection with low-power accelerometer
CN107765574A (zh) 一种声控安全保护开关系统
CN111276164B (zh) 飞机上高噪音环境自适应话音激活检测装置及方法
CN106409312B (zh) 音频分类器
JPS6114520B2 (zh)
Zhang et al. An endpoint detection algorithm based on MFCC and spectral entropy using BP NN
Varsha et al. Distress Detection Using a Hybrid SVM-CNN Classifier
JP2599974B2 (ja) 音声検出方式
JPH0285898A (ja) 音声検出方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Fa Guomeilang

Applicant after: Dolphin Design

Address before: Fa Guobeierni

Applicant before: Dolphin Design

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210218

Address after: Fa Guobeierni

Applicant after: Dolphin Design

Address before: Fa Guomeilang

Applicant before: Dolphin Integration

GR01 Patent grant
GR01 Patent grant