CN108962258B - 多个语音识别设备之间的协调 - Google Patents

多个语音识别设备之间的协调 Download PDF

Info

Publication number
CN108962258B
CN108962258B CN201810500648.3A CN201810500648A CN108962258B CN 108962258 B CN108962258 B CN 108962258B CN 201810500648 A CN201810500648 A CN 201810500648A CN 108962258 B CN108962258 B CN 108962258B
Authority
CN
China
Prior art keywords
event
detected
features
utterance
locally
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810500648.3A
Other languages
English (en)
Other versions
CN108962258A (zh
Inventor
B.D.汤姆森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN108962258A publication Critical patent/CN108962258A/zh
Application granted granted Critical
Publication of CN108962258B publication Critical patent/CN108962258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

本发明的一个实施例阐述了一种用于选择语音识别设备的机制,所述语音识别设备被包括在此类设备的网络中,以处理与检测到的话语事件对应的音频命令。所述网络中的所述语音识别设备单独确定所述设备中的哪一个设备最适合处理与所述话语事件对应的所述音频命令。在操作中,检测到相同话语事件的所述语音识别设备中的每一者独立地选择相同的设备来处理所述音频命令。因为包括所选择的设备在内的所述语音识别设备中的每一者选择相同的设备来处理所述音频命令,所以所述语音识别设备不需要彼此共享与所选择的设备有关的信息。

Description

多个语音识别设备之间的协调
技术领域
本发明总体上涉及语音识别设备,并且更具体地涉及多个语音识别设备之间的协调。
背景技术
消费者空间中的语音识别变得越来越普遍。语音识别的一个用例是独立式语音识别设备,用于侦听关键词或关键短语并处理任何后续接收到的基于语音的命令。随着语音识别设备变得越来越普遍,诸如家庭或办公室之类的环境在给定的基于语音的命令的收听范围内具有多个语音识别设备将是司空见惯的。
在实践中,语音识别设备独立操作,使得给定设备将处理设备接收的每个基于语音的命令。这种独立操作导致在具有许多这种设备的环境中出现不希望的结果。具体地,每个语音识别设备可以基于接收的基于语音的命令独立地执行动作,该命令应理想地仅由一个设备执行。例如,用于将恒温器上的温度增加5度的语音命令可能被多个设备串行地且独立地执行,导致温度增加到不舒适或不安全的范围。
在一些系统中,主设备在不同语音识别设备之间进行协调以选择用于处理每个基于语音的命令的设备之一。这种系统的一个缺点是当主设备作为所有语音识别设备之间的协调中介工作时,处理基于语音的命令的延迟增加。这种系统的另一个缺点是主设备总是存在并且可用。因此,在主设备脱机的情况下,整个系统无法按需要运行。
发明内容
本发明的一个实施例阐述了用于处理基于话语的命令的方法。该方法包括生成与已经在本地检测到的话语事件相关联的一组特征并且从外部设备接收与由外部设备检测到的话语事件相关联的第二组特征。该方法还包括基于该组特征和第二组特征之间的比较来确定响应于该话语事件的动作应当在本地执行,并且在本地执行该动作。
所公开的方法的一个优点是在本地检测话语事件的设备可以独立地确定它是否相对于可能已经检测到话语事件的其他设备而言最适合于处理对应于话语事件的音频命令。以这种方式,设备网络中的每个设备独立地选择最适合处理对应于话语事件的音频命令的设备。另一个优点是减少了由不同设备响应相同话语事件而执行重复动作的情况。
附图说明
图1示出了被配置为实现本发明的一个或多个方面的系统环境。
图2示出根据一个实施例的VRD的框图。
图3是根据一个实施例的用于处理基于话语的命令的方法步骤的流程图。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对本发明更透彻的理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节中的一个或多个的情况下实践本发明。在其他情况下,为了避免模糊本发明,没有描述众所周知的特征。
图1示出了被配置为实现本发明的一个或多个方面的系统环境100。如所示出的,系统环境100包括语音识别设备(VRD)网络102、处理系统106和音频信号108。
VRD网络102包括多个VRD 104(1)-(N)(也统称为“VRD 104”,并且分别称为“VRD104”)。在一个实施例中,VRD网络102中的VRD 104基于网络连接、物理接近度和/或共享用户标识被自动分组。在另一个实施例中,VRD 104被手动分组,使得用户选择要包括在VRD网络102中的单独的VRD 104。
每个VRD 104由音频命令控制,使得VRD 104完全或部分地处理音频命令以执行一个或多个动作。VRD 104包括至少一个用于捕获音频命令(例如,人类说出的语音命令)的麦克风。VRD 104还包括至少一个音频输出机构(例如扬声器)和/或用于连接到外部音频输出机构(例如,用于连接到外部扬声器的音频插孔或蓝牙)的机构。音频输出机制用于将音频输出传递给VRD 104的用户。音频输出可以是录音、文本到语音播放、音乐、新闻等。
每个VRD 104经由网络连接与VRD网络102中的每个其他VRD 104连接。如下面更详细描述的,VRD 104通过网络连接彼此通信以协调VRD 104执行的一个或多个动作。此外,每个VRD 104经由网络连接而连接到远离VRD网络102的处理系统106。在一个实施例中,VRD104结合处理系统106操作以处理经由麦克风捕获的音频命令。
VRD 104通过处理入射在麦克风上的音频信号108来在“收听”状态下操作,以识别说出的关键词或关键短语。一旦识别了关键词或关键短语,VRD 104通过处理入射在麦克风上的任何其他音频信号108来切换到“动作”状态以识别音频命令。在一个实施例中,在动作状态下,VRD 104执行与所识别的音频命令相关联的一个或多个动作。在替代实施例中,在动作状态中,音频信号108被记录并传送到处理系统106。处理系统106对接收到的音频信号108执行一种或多种语音识别技术以识别音频命令,并且可选地执行与音频命令相关联的一个或多个动作。VRD 104通知用户处理音频命令和任何相关动作的结果。该通知可以是可视的(例如闪光灯)和/或基于音频(例如,预先记录的音频、文本到语音的音频等)。
在给定时间,与话语事件相关联的音频信号108入射到包括在若干VRD 104中的麦克风上。因此,VRD 104协调以确定哪个VRD 104最适合于处理对应于话语事件的音频命令。在操作中,当给定的VRD 104切换到动作状态时,VRD 104确定VRD网络102中的其他VRD 104是否也响应了导致VRD 104切换到动作状态的相同话语事件。如果是,则VRD 104选择VRD104中的一个来处理对应于话语事件的音频命令。响应相同话语事件的每个VRD 104独立地选择相同的VRD 104来处理音频命令。因为包括选择的VRD 104的每个VRD 104选择用于处理音频命令的相同的VRD 104,所以VRD 104不需要彼此共享与所选择的VRD 104相关的信息。以下讨论提供了有关此选择过程的详细信息。
图2示出根据一个实施例的给定VRD 104的框图。如图所示,VRD 104包括时钟同步引擎、话语识别引擎204、交叉VRD通信引擎206、VRD选择引擎208和本地命令处理引擎210。
时钟同步引擎202保持在VRD网络102中的所有VRD 104之间同步的时钟。在一个实施例中,同步时钟是专用时钟。在另一个实施例中,同步时钟是通过使每个VRD 104跟踪本地时钟与商定的主时钟之间的时间差的偏移量的近似值来计算的时钟值。一些同步时钟的技术包括网络时间协议(NTP)和全球定位卫星(GPS)。
话语识别引擎204分析音频信号以识别对应于话语事件的语音内容(在本文中被称为“识别的语音”)。在一个实施例中,音频信号的分析基于对应于来自词汇表的单词、短语或命令的声学模型。本领域的技术人员将理解,用于识别语音内容的任何其他技术都在该范围内。
话语识别引擎204还生成与识别的话语的各种特征相关联的元数据。具体地,话语识别引擎204基于接收到的音频信号的能量测量和音频信号中的背景噪声来生成与识别的语音相关联的输入质量度量。在一个实施例中,由于来自音频源的声音强度依据距离的平方而下降,音频信号的能量越低,输入质量度量越低。话语识别引擎204还基于所识别的语音相对于所说单词是准确和/或正确的置信度来生成与所识别的语音相关联的输出质量度量。此外,话语识别引擎204生成与所识别的语音相关联的定时信息。在一个实施例中,定时信息指示从时钟同步引擎202捕获的时间戳,该时间戳对应于与VRD 104接收到与识别的语音相关联的音频信号的时间。
在一个实施例中,话语识别引擎204结合处理系统106进行操作以执行语音识别和/或元数据生成操作。在这样的实施例中,话语识别引擎204将接收到的音频信号发送到处理系统106,并且作为响应,接收识别的语音和/或关联的元数据。
话语识别引擎204将识别的语音和对应于本地检测到的话语事件的关联的元数据发送到交叉VRD通信引擎206和VRD选择引擎208。交叉VRD通信引擎206将识别的语音和相关联的元数据发送到VRD网络102中的其他VRD 104。在一些实施例中,检测到相同话语事件的VRD网络102中的其他VRD 104(在此称为“外部VRD 104”)将与外部检测到的话语事件相对应的语音和元数据发送到交叉VRD通信引擎206。交叉VRD通信引擎206将来自话语识别引擎204的识别的语音和相关联的元数据以及从外部VRD 104接收的识别的语音和关联的元数据发送到VRD选择引擎208。
VRD选择引擎208选择检测到给定话语事件的VRD 104中的一个,以处理与话语事件相关联的命令。在操作中,VRD选择引擎208从话语识别引擎204接收识别的语音以及与本地检测到的话语事件相对应的关联的元数据。VRD选择引擎208还从交叉VRD通信引擎208接收与外部检测到的话语事件相对应的识别的语音以及相关联的元数据。这些外部检测到的话语事件被外部VRD 104检测到。VRD选择引擎208确定本地检测到的话语事件是否与外部检测到的话语事件相同(如果有的话),并且如果是,则确定检测到话语事件的哪个VRD 104应该进一步处理识别的语音。
为了确定本地检测到的话语事件是否与外部检测到的话语事件相同,VRD选择引擎208评估对应于每个检测到的话语事件的元数据。具体地,如果包括在与本地检测到的话语事件和外部检测到的话语事件对应的元数据中的定时信息指示事件发生在彼此的阈值时间内,则VRD选择引擎208确定本地和外部检测到的话语事件是相同的。另外,如果对应于本地检测到的话语事件和外部检测到的话语事件的识别的语音匹配(或基本匹配),则VRD选择引擎208确定本地和外部检测到的话语事件是相同的。在一些实施例中,VRD选择引擎208(i)不接收对应于外部检测到的话语事件的识别的语音和元数据,或者(ii)外部检测到的话语事件都不与本地检测到的话语事件相同。在这样的实施例中,VRD选择引擎208选择本地VRD 104以进一步处理识别的语音。
当一个或多个外部VRD 104也检测到话语事件时,本地VRD 104中的VRD选择引擎208选择VRD 104中的一个VRD来进一步处理所识别的语音。所选择的VRD 104可以是本地VRD 104或外部VRD 104。在操作中,跨越不同VRD 104的每个VRD选择引擎208选择相同的VRD 104以进一步处理识别的语音。如果选择的VRD 104是本地VRD 104,则本地VRD 104继续处理识别的语音(使用本地命令处理引擎210)。然而,如果所选择的VRD 104是外部VRD104,则本地VRD 104不再处理所识别的语音。
为了选择将进一步处理识别的语音的VRD 104,VRD选择引擎208评估与每个检测到的话语事件相对应的识别语音的元数据和/或内容。具体而言,VRD选择引擎208评估定时信息、输入质量度量、输出质量度量和识别的语音的内容中的一个或多个,以选择将进一步处理识别的语音的VRD 104。以下讨论描述VRD选择引擎208可以如何单独使用定时信息、度量和识别语音的内容中的每一项来进行选择。在其他实施例中,定时信息、度量和识别语音的内容可以使用加权函数进行组合,或者可以单独使用或组合使用,以在最终选择之前过滤某些VRD 104。
关于定时信息,VRD选择引擎208评估与检测到的话语事件对应的时间戳,并识别具有最早的时间戳的检测到的话语事件。如上所述,对应于检测到的话语事件的时间戳指示检测到话语事件的VRD 104接收到音频信号的时间。检测到对应于最早时间戳的话语事件的VRD 104被选择用于进一步处理识别的语音。在两个或更多个检测到的话语事件具有时间相同或接近的时间戳的情况下,VRD选择引擎208执行平局决胜操作。在一个实施例中,平局决胜操作选择具有最低MAC地址的VRD 104。
关于输入质量度量,对于每个检测到的话语事件,VRD选择引擎208基于对应的输入质量度量来计算输入质量分数。为了计算输入质量分数,VRD选择引擎208确定在人类话语的典型频率(例如,300Hz至3kHz)内的音频信号的能量的量。如果对于给定的检测到的话语事件,小于音频信号的能量的阈值量在该范围内,则检测到的话语事件不太可能是人类话语,或者可能包括与人类话语相结合的显著噪声。VRD选择引擎208还将音频信号的能量的量与对应于先前检测到的成功处理的话语事件的音频信号的能量的量进行比较。如果对于给定的检测到的话语事件,能量的量在先前检测到的话语事件的范围内,则检测到的话语事件更可能是人类话语,并且音频信号可能具有良好的质量。VRD选择引擎208还确定所接收的音频的整体质量。音频的总体质量可以基于音频是否包括可识别的噪声(例如,弹出或点击)和/或音频的采样率。
VRD选择引擎208基于人类话语的典型频率内的能量的量、能量的量与先前检测到的话语事件之间的比较以及音频的总体质量来计算给定的检测到的话语事件的输入质量分数。VRD选择引擎208可以将数值与这些特征中的每一个相关联,然后对这些数值进行加权和求和以计算输入质量得分。VRD选择引擎208比较对应于每个检测到的话语事件的输入质量分数,以确定哪个VRD 104接收到最佳质量的音频信号并且应该被选择用于进一步处理话语事件。在一个实施例中,检测具有最高输入质量分数的话语事件的VRD 104被选择用于进一步处理识别的语音。在其他实施例中,VRD选择引擎208将输入质量分数与检测到的话语事件相关联的其他度量相结合以进行选择。
关于输出质量度量,VRD选择引擎208评估对应于检测到的话语事件的输出质量度量并且识别具有最高输出质量度量的检测到的话语事件。如上所述,与识别的语音相关联的输出质量度量指示所识别的语音相对于所说单词是准确和/或正确的置信度。检测到对应于最高输出质量度量的话语事件的VRD 104被选择用于进一步处理识别的语音。在两个或更多个检测到的话语事件具有可比较的质量和/或置信度值的情况下,VRD选择引擎208执行平局决胜操作。在一个实施例中,平局决胜操作选择具有最低MAC地址的VRD 104。
关于识别的语音的内容,VRD选择引擎208评估与检测到的话语事件对应的内容,并确定识别相同内容的VRD 104的数量。当VRD 104的至少阈值数量或百分比识别相同的内容时,VRD选择引擎208选择识别该内容的VRD 104中的一个,以进一步处理识别的语音。在VRD 104的至少阈值数量或百分比未识别相同内容的情况下,VRD选择引擎208可以确定不应该选择VRD 104中的任何一个用于进一步处理识别的语音。
如上所述,VRD选择引擎208可以使用加权函数来组合定时信息、度量和所识别语音的内容,以选择将进一步处理所识别的语音的VRD 104。跨越不同VRD 104的每个VRD选择引擎208使用相同的标准来选择相同的VRD 104以用于进一步处理所识别的语音。如果选择的VRD 104是本地VRD 104,则本地VRD 104继续处理识别的语音。然而,如果所选择的VRD104是外部VRD 104,则本地VRD 104不再处理所识别的语音。由于跨越不同VRD 104的每个VRD选择引擎208选择相同的VRD 104以用于进一步处理识别的语音,所以VRD 104不需要彼此传递该选择。
本地命令处理引擎210在本地执行与包括在识别的语音中的音频命令相关联的一个或多个动作。在替代实施例中,本地命令处理引擎210与处理系统106协调以执行与音频命令相关联的一个或多个动作。本地命令处理引擎210可选地向用户通知执行与音频命令相关联的动作的结果。该通知可以是可视的(例如闪光灯)和/或基于音频的(例如,预先记录的音频、文本到语音的音频等)
图3是根据一个实施例的用于处理基于话语的命令的方法步骤的流程图。尽管结合图1-2的系统描述了方法步骤,但本领域技术人员将理解,配置为以任何顺序执行方法步骤的任何系统都在本发明的范围内。
方法300在步骤302处开始,其中本地VRD 104中的话语识别引擎204在本地检测话语事件。话语识别引擎204分析与话语事件相关联的音频信号并识别与话语事件相对应的语音内容。在一个实施例中,音频信号的分析基于对应于来自词汇表的单词、短语或命令的声学模型。本领域的技术人员将理解,用于识别语音内容的任何其他技术都在该范围内。
在步骤304,话语识别引擎204生成与本地检测到的话语事件相关联的一组特征。该组特征包括基于接收到的音频信号的能量测量和音频信号中的背景噪声确定的输入质量度量。该组特征还包括基于识别的语音相对于说出的单词准确和/或正确的置信度确定的输出质量度量。此外,特征包括指示与VRD 104接收到与识别的语音相关联的音频信号的时间对应的时间戳的定时信息。话语识别引擎204将该组特征发送到包括在本地VRD 104中的VRD选择引擎208。
在步骤306,包括在本地VRD 104中的VRD选择引擎208启动定时器。定时器周期使得包括在本地VRD 104中的交叉VRD通信引擎206有时间在定时器到期之前从VRD网络102中的所有其他VRD 104接收识别的语音和相关联的元数据。
在步骤308,包括在本地VRD 104中的VRD选择引擎208等待定时器到期,并且还等待接收与由外部VRD 104检测到的相同话语事件相关联的第二组特征。一旦发生这些事件中的任何一个,方法300就前进到步骤310。
在步骤310,如果在步骤308中定时器在接收到任何更多特征之前到期,则方法300前进到步骤316。否则,在步骤308,包括在本地VRD 104中的VRD选择引擎208接收与由外部VRD 104检测到的相同话语事件相关联的第二组特征。该组特征包括输入质量度量、输出质量度量和对应于外部检测到的话语事件的定时信息。在这种情况下,方法300进行到步骤312以处理接收到的第二组特征。
如果自从方法300开始以来已经针对每个外部VRD 104接收并评估了特征(步骤314),则步骤308和310可以将该定时器视为已经到期,因为不期望更多的特征,而不是使步骤308继续等待定时器到期。
在312处,VRD选择引擎208基于第一组特征和第二组特征来确定是否应该由本地VRD 104执行响应于话语事件的任何进一步的动作。在操作中,VRD选择引擎208将第一组特征与第二组特征进行比较,以确定本地VRD 104是否相对于也检测到相同的话语事件的外部VRD 104更适合于处理对应于话语事件的音频命令。
如果在步骤314,VRD选择引擎208确定本地VRD应该执行响应于话语事件的进一步动作,则方法300进行到步骤308以等待来自其他外部VRD 104的特征。然而,如果在步骤314,VRD选择引擎208确定本地VRD不应当执行响应于话语事件的进一步动作,则方法300结束。
在步骤316,本地处理引擎210本地执行响应于话语事件的一个或多个动作。在一个实施例中,本地处理引擎210结合处理系统106进行操作以执行动作。
总而言之,在给定时间,与话语事件相关联的音频信号入射到包括在若干VRD 104中的麦克风上。因此,VRD 104分别确定哪个VRD 104最适合处理对应于话语事件的音频命令。在操作中,本地检测到话语事件的VRD 104确定VRD网络102中的其他VRD 104是否也检测到相同的话语事件。如果是,则VRD 104选择VRD 104中的一个来处理对应于话语事件的音频命令。检测到相同话语事件的每个VRD 104独立地选择相同的VRD 104来处理音频命令。因为包括选择的VRD 104的每个VRD 104选择用于处理音频命令的相同的VRD 104,所以VRD 104不需要彼此共享与所选择的VRD 104相关的信息。
尽管前述内容针对本发明的实施例,但是可以在不脱离本发明的基本范围的情况下设计本发明的其他实施例和进一步的实施例。例如,本发明的各方面可以用硬件或软件或硬件和软件的组合来实现。本发明的一个实施例可以实现为与计算机系统一起使用的程序产品。程序产品的程序定义了实施例的功能(包括这里描述的方法)并且可以包含在各种计算机可读存储介质上。说明性的计算机可读存储介质包括但不限于:(i)不可写入的存储介质(例如,计算机内的只读存储器设备,诸如可由CD-ROM驱动器读取的CD-ROM盘、闪存、ROM芯片或任何类型的固态非易失性半导体存储器),其上永久存储信息;以及(ii)存储可变信息的可写存储介质(例如,软盘驱动器内的软盘或硬盘驱动器或任何类型的固态随机存取半导体存储器)。当携带指导本发明的功能的计算机可读指令时,这样的计算机可读存储介质是本发明的实施例。
鉴于前述内容,本发明的范围由权利要求书确定。

Claims (19)

1.一种用于在包括多个语音识别设备VRD的VRD网络中处理基于话语的命令的方法,所述方法包括由所述多个VRD中每一个执行以下步骤:
生成与已经在本地检测到的话语事件相关联的一组特征,所述一组特征包括从所述话语事件中识别出的说话内容;
将所述一组特征和相关联的元数据发送给网络中的其他VRD,其中所述元数据与所述说话内容相关联;
从网络中的其他VRD中的每一个接收与由那个VRD检测到的所述话语事件相关联的第二组特征,其中所述第二组特征包括从由那个VRD检测到的所述话语事件中识别的第二说话内容;
基于所述一组特征与所述第二组特征之间的比较来确定响应于所述话语事件的动作应当由网络中的VRD中的一个确定的VRD在本地执行,其中所述确定包括确定所述说话内容与所述第二说话内容匹配;以及
由所述网络中的VRD中的所述确定的VRD在本地执行所述动作。
2.根据权利要求1所述的方法,其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的频率,并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述频率落入与人类话语相关联的频率范围内。
3.根据权利要求1所述的方法,其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的能量测量,并且所述第二组特征包括对应于所述话语事件的外部检测到的音频信号的第二能量测量,并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述本地检测到的音频信号的所述能量测量大于所述外部检测到的音频信号的所述第二能量测量。
4.根据权利要求1所述的方法,其中所述一组特征包括对应于所述话语事件的本地检测到的音频的质量测量,并且所述第二组特征包括对应于所述话语事件的外部检测到的音频的第二质量测量,并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述本地检测到的音频的所述质量测量高于所述外部检测到的音频的所述第二质量测量。
5.根据权利要求1所述的方法,其中所述一组特征包括对应于在本地检测到所述话语事件时的时间戳,并且所述第二组特征包括对应于在所述网络中的其他VRD检测到所述话语事件时的时间戳,并且其中确定响应于所述话语事件的所述动作应当在本地执行包括:基于所述时间戳来确定在所述网络中的其他VRD检测到所述话语事件之前本地检测到所述话语事件。
6.根据权利要求1所述的方法,其中所述一组特征包括与从本地检测到的所述话语事件中识别的说话内容相关联的置信度分数,并且所述第二组特征包括与从所述网络中的其他VRD检测到的所述话语事件中识别的说话内容相关联的第二置信度分数,并且其中确定响应于所述话语事件的动作应当在本地执行包括:确定所述本地检测到的音频的所述置信度分数高于所述第二置信度分数。
7.根据权利要求1所述的方法,其中所述一组特征包括与从所述话语事件中识别出的说话内容相关联的置信度分数,并且其中确定响应于所述话语事件的动作应当在本地执行包括:确定所述置信度分数大于阈值。
8.根据权利要求1所述的方法,还包括由所述多个VRD中的每一个执行以下步骤:
生成与已经在本地检测到的第二话语事件相关联的第三组特征;
从所述网络中的多个VRD中的每一个接收与由那个VRD检测到的所述第二话语事件相关联的第四组特征;
基于所述第三组特征与所述第四组特征之间的比较来确定响应于所述话语事件的动作应当由所述网络中的所述其他VRD中的一个执行;以及
终止对所述第二话语事件的本地处理。
9.一种存储指令的计算机可读介质,所述指令在由语音识别设备VRD的处理器执行时使所述处理器通过执行以下步骤来处理基于话语的命令,其中所述VRD在包括多个VRD的VRD网络中使用:
生成与已经在本地检测到的话语事件相关联的一组特征,所述一组特征包括从所述话语事件中识别出的说话内容;
将所述一组特征和相关联的元数据发送给网络中的其他VRD,其中所述元数据与所述说话内容相关联;从网络中的其他VRD中的每一个接收与由那个VRD检测到的所述话语事件相关联的第二组特征,其中所述第二组特征包括从由那个VRD检测到的所述话语事件中识别的第二说话内容;
基于所述一组特征与所述第二组特征之间的比较来确定响应于所述话语事件的动作应当在本地执行,其中所述确定包括确定所述说话内容与所述第二说话内容匹配;以及
在本地执行所述动作。
10.根据权利要求9所述的计算机可读介质,其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的频率,并且其中确定响应于所述话语事件的动作应当在本地执行包括:确定所述频率落在与人类话语相关联的频率范围内。
11.根据权利要求9所述的计算机可读介质,其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的能量测量,并且所述第二组特征包括对应于所述话语事件的外部检测到的音频信号的第二能量测量,并且其中确定响应于所述话语事件的动作应当在本地执行包括:确定所述本地检测到的音频信号的能量测量大于所述外部检测到的音频信号的所述第二能量测量。
12.根据权利要求9所述的计算机可读介质,其中所述一组特征包括对应于所述话语事件的本地检测到的音频的质量测量,并且所述第二组特征包括对应于所述话语事件的外部检测到的音频的第二质量测量,并且其中确定响应于所述话语事件的所述动作应当在本地执行包括:确定本地检测到的音频的所述质量测量高于外部检测到的音频的所述第二质量测量。
13.根据权利要求9所述的计算机可读介质,其中所述一组特征包括对应于在本地检测到所述话语事件时的时间戳,并且所述第二组特征包括对应于在所述网络中的其他VRD检测到所述话语事件时的时间戳,并且其中确定响应于所述话语事件的动作应当在本地执行包括:基于所述时间戳来确定在所述网络中的其他VRD检测到所述话语事件之前本地检测到所述话语事件。
14.根据权利要求13所述的计算机可读介质,其中所述时间戳是基于同步时钟确定的。
15.根据权利要求9所述的计算机可读介质,其中所述指令还使所述处理器执行以下步骤:确定由所述网络中的其他VRD检测到的所述话语事件与已经在本地检测到的所述话语事件匹配。
16.根据权利要求15所述的计算机可读介质,其中确定由所述网络中的其他VRD检测到的所述话语事件与已经在本地检测到的所述话语事件匹配包括将对应于在所述网络中的其他VRD检测到所述话语事件时的外部时间戳与对应于在本地检测到所述话语事件时的本地时间戳进行比较。
17.根据权利要求15所述的计算机可读介质,其中确定由所述网络中的其他VRD检测到的所述话语事件与已经在本地检测到的所述话语事件匹配包括将基于所述网络中的其他VRD检测到的所述话语事件识别的第一内容与基于已经在本地检测到的所述话语事件识别的第二内容进行比较。
18. 一种语音识别设备VRD,其中所述VRD在包括多个VRD的VRD网络中使用,包括:
麦克风;以及
计算机处理器,其执行指令以执行以下步骤:
生成与已经经由所述麦克风本地检测到的话语事件相关联的一组特征,所述一组特征包括从所述话语事件中识别出的说话内容,
将所述一组特征和相关联的元数据发送给网络中的其他VRD,其中所述元数据与所述说话内容相关联,
从网络中的其他VRD中的每一个接收与已经由那个VRD检测到的所述话语事件相关联的第二组特征,其中所述第二组特征包括从由那个VRD检测到的所述话语事件中识别的第二说话内容,
基于所述一组特征与所述第二组特征之间的比较来确定响应于所述话语事件的动作应当在本地执行,其中所述确定包括确定所述说话内容与所述第二说话内容匹配,以及
在本地执行所述动作。
19.根据权利要求18所述的语音识别设备,其中所述指令还使所述处理器执行以下步骤:
生成与已经经由所述麦克风本地检测到的第二话语事件相关联的第三组特征;
从所述网络中的其他VRD中的每一个接收与已经由那个VRD检测到的所述第二话语事件相关联的第四组特征;
基于所述第三组特征与所述第四组特征之间的比较来确定响应于所述话语事件的动作应当由所述网络中的其他VRD中的一个VRD执行;以及
终止对所述第二话语事件的本地处理。
CN201810500648.3A 2017-05-24 2018-05-23 多个语音识别设备之间的协调 Active CN108962258B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/604,536 2017-05-24
US15/604,536 US10665232B2 (en) 2017-05-24 2017-05-24 Coordination among multiple voice recognition devices

Publications (2)

Publication Number Publication Date
CN108962258A CN108962258A (zh) 2018-12-07
CN108962258B true CN108962258B (zh) 2023-08-15

Family

ID=62186258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810500648.3A Active CN108962258B (zh) 2017-05-24 2018-05-23 多个语音识别设备之间的协调

Country Status (5)

Country Link
US (1) US10665232B2 (zh)
EP (1) EP3407348B1 (zh)
JP (1) JP7202075B2 (zh)
KR (1) KR20180128838A (zh)
CN (1) CN108962258B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
KR20200074680A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
US11417323B2 (en) * 2019-02-27 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
WO2020196955A1 (ko) * 2019-03-27 2020-10-01 엘지전자 주식회사 인공 지능 기기 및 인공 지능 기기의 동작 방법
WO2021118531A1 (en) * 2019-12-10 2021-06-17 Rovi Guides, Inc. Systems and methods for local automated speech-to-text processing
CN113489627A (zh) * 2020-03-16 2021-10-08 深圳市艾特智能科技有限公司 一种智能设备语音唤醒方法、系统、可读存储介质及电子设备
KR20220057989A (ko) * 2020-10-30 2022-05-09 삼성전자주식회사 전자장치 및 그 제어방법
US11798530B2 (en) * 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11749284B2 (en) 2020-11-13 2023-09-05 Google Llc Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
WO2017044629A1 (en) * 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0720892A (ja) * 1993-06-30 1995-01-24 Fujitsu Ltd 音声認識装置におけるノイズキャンセリング装置
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
JP6118838B2 (ja) 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US20170311005A1 (en) * 2016-04-26 2017-10-26 Szu-Tung Lin Method of wireless audio transmission and playback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
WO2017044629A1 (en) * 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Also Published As

Publication number Publication date
US10665232B2 (en) 2020-05-26
US20180342244A1 (en) 2018-11-29
KR20180128838A (ko) 2018-12-04
EP3407348A1 (en) 2018-11-28
CN108962258A (zh) 2018-12-07
JP2018197855A (ja) 2018-12-13
EP3407348B1 (en) 2022-07-27
JP7202075B2 (ja) 2023-01-11

Similar Documents

Publication Publication Date Title
CN108962258B (zh) 多个语音识别设备之间的协调
US11343611B2 (en) Selection of master device for synchronized audio
US20210074291A1 (en) Implicit target selection for multiple audio playback devices in an environment
CN110214351B (zh) 记录的媒体热词触发抑制
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US11922095B2 (en) Device selection for providing a response
US10431217B2 (en) Audio playback device that dynamically switches between receiving audio data from a soft access point and receiving audio data from a local access point
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2020228270A1 (zh) 语音处理方法、装置、计算机设备及存储介质
JP2021525385A (ja) ホットワード抑制
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
US9460714B2 (en) Speech processing apparatus and method
JP2017167318A (ja) 議事録生成装置、及び議事録生成プログラム
CN109065026B (zh) 一种录音控制方法及装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
EP4004907B1 (en) Multi-device wakeword detection
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
JP2016061890A (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
KR101737083B1 (ko) 음성 활동 감지 방법 및 장치
KR102102387B1 (ko) 다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템
KR20230106335A (ko) 음성인식장치 및 이를 이용한 음성인식방법
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant