CN108198548B - 一种语音唤醒方法及其系统 - Google Patents

一种语音唤醒方法及其系统 Download PDF

Info

Publication number
CN108198548B
CN108198548B CN201810070799.XA CN201810070799A CN108198548B CN 108198548 B CN108198548 B CN 108198548B CN 201810070799 A CN201810070799 A CN 201810070799A CN 108198548 B CN108198548 B CN 108198548B
Authority
CN
China
Prior art keywords
word
awakening
voice
awakening word
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810070799.XA
Other languages
English (en)
Other versions
CN108198548A (zh
Inventor
张李
王欢良
鄢楷强
唐浩元
王佳珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qdreamer Network Technology Co ltd
Original Assignee
Suzhou Qdreamer Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qdreamer Network Technology Co ltd filed Critical Suzhou Qdreamer Network Technology Co ltd
Priority to CN201810070799.XA priority Critical patent/CN108198548B/zh
Publication of CN108198548A publication Critical patent/CN108198548A/zh
Application granted granted Critical
Publication of CN108198548B publication Critical patent/CN108198548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音唤醒方法和系统,方法包括:步骤1)获取输入的实时音频流数据,利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;否则,停止唤醒词检测算法,继续检测;步骤2)利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;步骤3)利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度。

Description

一种语音唤醒方法及其系统
技术领域
本发明属于一种语音唤醒方法及其系统。
背景技术
语音唤醒是当前具备语音交互能力的智能产品和服务的核心功能之一。当前主流的语音唤醒技术是采用隐马尔科夫模型或者深度神经网络对唤醒词进行针对性建模。这样的模型只能根据语音信号区分唤醒词和非唤醒词。由于语音是连续且渐变的,必然有一些语音处于唤醒词和非唤醒词的临界区域,并且总有一些语音其发音和唤醒词很像,这样就会经常使得模型产生误判,从而导致高的误唤醒率。目前大多数具有语音唤醒功能的产品和服务,都存在较严重的误唤醒问题。
发明内容
针对当前方法误唤醒率高的问题,本发明公开一套新的语音唤醒方案和系统。
本发明解决上述技术问题所采取的技术方案如下:
一种语音唤醒方法,包括:
步骤1)获取输入的实时音频流数据,
利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;
否则,停止唤醒词检测算法,继续检测;
步骤2)利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;
如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;
步骤3)利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度;
如果置信度大于给定阈值T2,则判定给语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测。
优选的是,步骤2)中,所述唤醒词检测算法采用基于HMM或者DNN模型的唤醒词依赖的检测算法。
优选的是,步骤3)中,具体包括:S3.1:提取假定为唤醒词的语音数据片段的特征;
S3.2:把唤醒词发音拆分成基本声学建模单元的序列,即状态或者音素;其中状态或者音素是对应的通用声学模型参数库中的基本声学单元;
S3.3:计算给定唤醒词基本声学单元序列下语音数据片段的似然度,记为L1;
S3.4:构建一个基本声学建模单元全连接的解码网络,即状态或者音素构成的解码网络;
S3.5:基于该解码网络,对语音数据片段进行解码,得到似然度得分最高的解码路径对应的似然度,记为L2;
S3.6:计算上述两个似然度的差值作为该语音片段是唤醒词的置信度,记为D=S(L1-L2);如果D大于给定阈值T2,则确认该语音片段是唤醒词,输出1;否则,确认该语音片段是非唤醒词,输出0。其中S(.)是一个修正的Sigmoid函数。
一种语音唤醒系统,包括:
语音检测模块,用于获取输入的实时音频流数据,
利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;
否则,停止唤醒词检测算法,继续检测;
唤醒词检测模块,和唤醒词特定的模型参数库相连接,并利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;
如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;
唤醒词确认模块,和通用声学模型参数库,用于利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度;
如果置信度大于给定阈值T2,则判定给语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测。
优选的是,还包括:唤醒词特定的模型参数库,用于存储唤醒词依赖的模型参数,所述模型参数预先在大量唤醒词数据和背景数据上统计训练得到。
优选的是,唤醒词检测模型包括:高斯混合模型(GMM)或者隐马尔可夫模型(HMM)或者深度神经网络(DNN);
其中,不同的唤醒词检测模型,其对应与相应的唤醒检测算法。
优选的是,还包括:通用声学模型参数库,用于存储细粒度的通用声学模型参数,该模型为HMM状态或者音素级别的模型,不依赖于唤醒词的通用模型。
优选的是,所述通用声学模型参数库,基于大规模标准发音的语音数据上训练得到。
该方案采用了两级检测结构,先尽可能检测出唤醒词,保证唤醒词检出率;对于第一级检测出的唤醒词,再通过第二级进行确认过滤,尽量降低误唤醒率。此方案在不显著增加计算量和延迟的情况下,可以显著减少误唤醒率,而唤醒检出率不受影响。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明语音唤醒系统的结构示意图;
图2是本发明语音唤醒方法的流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
语音唤醒是当前具备语音交互能力的智能产品和服务的核心功能之一。当前主流的语音唤醒技术是采用隐马尔科夫模型或者深度神经网络对唤醒词进行针对性建模。这样的模型只能根据语音信号区分唤醒词和非唤醒词。由于语音是连续且渐变的,必然有一些语音处于唤醒词和非唤醒词的临界区域,并且总有一些语音其发音和唤醒词很像,这样就会经常使得模型产生误判,从而导致高的误唤醒率。目前大多数具有语音唤醒功能的产品和服务,都存在较严重的误唤醒问题。
针对当前方法误唤醒率高的问题,本发明公开一套新的语音唤醒方案和系统。该方案采用了两级检测结构,先尽可能检测出唤醒词,保证唤醒词检出率;对于第一级检测出的唤醒词,再通过第二级进行确认过滤,尽量降低误唤醒率。此方案在不显著增加计算量和延迟的情况下,可以显著减少误唤醒率,而唤醒检出率不受影响。
本发明公开一套语音唤醒方案和系统,可以在不影响唤醒率的情况下,显著降低误唤醒率。本发明所公开的语音唤醒系统的组成结构如下图1所示:
其中,系统包括如下核心模块:
语音检测模块1:此模块不间断地从连续的音频信号流中实时检测语音的起始点和结束点。如果检测到语音起始点,则把音频流数据送入唤醒词检测模块2;如果检测到语音结束点,则停止发送音频流到唤醒词检测模块2。
唤醒词检测模块2:此模块从唤醒词特定的模型参数库4中加载唤醒词模型参数,采用唤醒词检测算法计算接收到的音频和唤醒词的相似度。如果相似度大于预设阈值T1,则认为可能是唤醒词语音,把对应有音频发送到唤醒词确认模块3;否则,认为是非唤醒词语音,继续检测。
唤醒词确认模块3:此模块从通用声学模型参数库5中加载模型参数,采用唤醒词确认算法计算唤醒词语音段的置信度。如果置信度大于预设阈值T2,则确认是真正的唤醒词,唤醒设备开始后续的处理;否则,认为是非唤醒词,属于误唤醒,回到模块2,继续检测唤醒词。
唤醒词特定的模型参数库4:存储唤醒词依赖的模型参数。此模型参数预先在大量唤醒词数据和背景数据上统计训练得到。典型的唤醒词检测模型包括:高斯混合模型(GMM),隐马尔可夫模型(HMM),深度神经网络(DNN)等。不同的模型,其对应的唤醒检测算法也会不同。
通用声学模型参数库5:存储更细粒度的通用声学模型参数。其特点是HMM状态或者音素级别的模型,不依赖于唤醒词的通用模型。由于不依赖于唤醒词,因此此模块可用于任意的唤醒词识别系统。此模型利用大规模标准发音的语音数据上训练得到。典型的声学模型包括:隐马尔可夫模型(HMM),深度神经网络(DNN)等。
本发明所公开的语音唤醒方法的工作流程如下图2所示。
具体实施步骤如下:
步骤1:利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;否则,停止唤醒词检测算法,继续检测。
步骤2:利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度。如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束。
步骤3:唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度。如果置信度大于给定阈值T2,则判定给语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测。
其中,阈值T1和T2的取值范围在0~1之间,可根据实际场景数据进行调整选择最优值。
本发明所公布的方法和系统中,唤醒词检测算法可以采用当前成熟的基于HMM或者DNN模型的唤醒词依赖的检测算法【文献1】。这类检测算法算法的好处是对唤醒词语音有很高的检出率;但是对于非唤醒词语音,尤其那些和唤醒词发音较像的语音,也很容易被误判为唤醒词。
其中,唤醒词确认算法的基本工作步骤如下:
S3.1:提取假定为唤醒词的语音数据片段的特征;
S3.2:把唤醒词发音拆分成基本声学建模单元的序列,如状态或者音素;其中状态或者音素是对应的通用声学模型参数库中的基本声学单元;
S3.3:计算给定唤醒词基本声学单元序列下语音数据片段的似然度,记为L1;
S3.4:构建一个基本声学建模单元全连接的解码网络,如状态或者音素构成的解码网络;
S3.5:基于该解码网络,对语音数据片段进行解码,得到似然度得分最高的解码路径对应的似然度,记为L2;
S3.6:计算上述两个似然度的差值作为该语音片段是唤醒词的置信度,记为D=S(L1-L2);如果D大于给定阈值T2,则确认该语音片段是唤醒词,输出1;否则,确认该语音片段是非唤醒词,输出0;其中S(.)是一个修正的Sigmoid函数。
本发明主要创新点如下:
1)公开了一种新的语音唤醒词检测系统,该系统通过唤醒词检测模块和唤醒词确认模块的两层结构和两套模型参数库,可以在不降低唤醒率的情况下,显著降低误唤醒率;
2)公开了一种可以降低误唤醒率的语音唤醒方法,该方法利用唤醒词确认技术来降低误唤醒率;
3)公开了一种唤醒词确认方法,该方法利用更通用和更细粒度的声学模型,对给定的语音数据进行分析,计算唤醒词的置信度
4)公开了一种唤醒词的置信度计算方法,该方法对给定语音数据进行两路解码,计算两路解码的似然度得分之比作为唤醒词的置信度。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种语音唤醒方法,其特征在于,包括:
步骤1)获取输入的实时音频流数据,
利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;
否则,停止唤醒词检测算法,继续检测;
步骤2)利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;
如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;
步骤3)利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度;
如果置信度大于给定阈值T2,则判定该语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测;
步骤3)中,具体包括:
S3.1:提取假定为唤醒词的语音数据片段的声学特征;
S3.2:利用强制对齐算法把唤醒词发音拆分成基本声学建模单元的序列,即状态或者音素;其中状态或者音素是对应的通用声学模型参数库中的基本声学单元;
S3.3:计算给定唤醒词基本声学单元序列下语音数据片段的似然度,记为L1;
S3.4:构建一个基本声学建模单元全连接的解码网络,即状态或者音素构成的解码网络;
S3.5:基于该解码网络,对语音数据片段进行解码,得到似然度得分最高的解码路径对应的似然度,记为L2;
S3.6:计算上述两个似然度的差值作为该语音片段是唤醒词的置信度,记为D=S(L1-L2);如果D大于给定阈值T2,则确认该语音片段是唤醒词,输出1;否则,确认该语音片段是非唤醒词,输出0,其中S(.)是一个修正的Sigmoid函数。
2.根据权利要求1所述的语音唤醒方法,其特征在于,步骤2)中,所述唤醒词检测算法可采用基于HMM或者DNN模型的唤醒词依赖的检测算法。
3.一种语音唤醒系统,其特征在于,包括:
语音检测模块,用于获取输入的实时音频流数据,
利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;
否则,停止唤醒词检测算法,继续检测;
唤醒词检测模块,和唤醒词特定的模型参数库相连接,并利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;
如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;
唤醒词确认模块,和通用声学模型参数库,用于利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度;
如果置信度大于给定阈值T2,则判定给语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测;
唤醒词确认模块通过如下执行:
S3.1:提取假定为唤醒词的语音数据片段的声学特征;
S3.2:利用强制对齐算法把唤醒词发音拆分成基本声学建模单元的序列,即状态或者音素;其中状态或者音素是对应的通用声学模型参数库中的基本声学单元;
S3.3:计算给定唤醒词基本声学单元序列下语音数据片段的似然度,记为L1;
S3.4:构建一个基本声学建模单元全连接的解码网络,即状态或者音素构成的解码网络;
S3.5:基于该解码网络,对语音数据片段进行解码,得到似然度得分最高的解码路径对应的似然度,记为L2;
S3.6:计算上述两个似然度的差值作为该语音片段是唤醒词的置信度,记为D=S(L1-L2);如果D大于给定阈值T2,则确认该语音片段是唤醒词,输出1;否则,确认该语音片段是非唤醒词,输出0,其中S(.)是一个修正的Sigmoid函数。
4.根据权利要求3所述的语音唤醒系统,其特征在于,还包括:唤醒词特定的模型参数库,用于存储唤醒词依赖的模型参数,所述模型参数预先在大量唤醒词数据和背景数据上统计训练得到。
5.根据权利要求4所述的语音唤醒系统,其特征在于,唤醒词检测模型包括:高斯混合模型(GMM)或者隐马尔可夫模型(HMM)或者深度神经网络(DNN);
其中,不同的唤醒词检测模型,其对应于相应的唤醒检测算法。
6.根据权利要求5所述的语音唤醒系统,其特征在于,还包括:通用声学模型参数库,用于存储细粒度的通用声学模型参数,该模型为HMM状态或者音素级别的模型,不依赖于唤醒词的通用模型。
7.根据权利要求6所述的语音唤醒系统,其特征在于,所述通用声学模型参数库,基于大规模标准发音的语音数据上训练得到。
CN201810070799.XA 2018-01-25 2018-01-25 一种语音唤醒方法及其系统 Active CN108198548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810070799.XA CN108198548B (zh) 2018-01-25 2018-01-25 一种语音唤醒方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810070799.XA CN108198548B (zh) 2018-01-25 2018-01-25 一种语音唤醒方法及其系统

Publications (2)

Publication Number Publication Date
CN108198548A CN108198548A (zh) 2018-06-22
CN108198548B true CN108198548B (zh) 2020-11-20

Family

ID=62591164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810070799.XA Active CN108198548B (zh) 2018-01-25 2018-01-25 一种语音唤醒方法及其系统

Country Status (1)

Country Link
CN (1) CN108198548B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN110718212A (zh) * 2019-10-12 2020-01-21 出门问问信息科技有限公司 语音唤醒方法、装置及系统、终端和计算机可读存储介质
CN110706691B (zh) * 2019-10-12 2021-02-09 出门问问信息科技有限公司 语音验证方法及装置、电子设备和计算机可读存储介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110890093B (zh) * 2019-11-22 2024-02-09 腾讯科技(深圳)有限公司 一种基于人工智能的智能设备唤醒方法和装置
CN110910884B (zh) * 2019-12-04 2022-03-22 北京搜狗科技发展有限公司 一种唤醒检测方法、装置和介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111429901B (zh) * 2020-03-16 2023-03-21 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置
CN111599371B (zh) * 2020-05-19 2023-10-20 苏州奇梦者网络科技有限公司 语音增加方法、系统、装置及存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111816193B (zh) * 2020-08-12 2020-12-15 深圳市友杰智新科技有限公司 基于多段网络的语音唤醒方法、装置及存储介质
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112669822B (zh) * 2020-12-16 2022-11-25 爱驰汽车有限公司 音频处理方法、装置、电子设备和存储介质
CN112669830A (zh) * 2020-12-18 2021-04-16 上海容大数字技术有限公司 一种端到端多唤醒词的识别系统
CN112562742B (zh) * 2020-12-29 2022-10-21 思必驰科技股份有限公司 语音处理方法和装置
CN115148197A (zh) * 2021-03-31 2022-10-04 华为技术有限公司 语音唤醒方法、装置、存储介质及系统
CN113611304B (zh) * 2021-08-30 2024-02-06 深圳鱼亮科技有限公司 一种基于大屏语音唤醒识别降噪混合系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014182458A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for controlling voice activation

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US9715878B2 (en) * 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
KR102018331B1 (ko) * 2016-01-08 2019-09-04 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782536B (zh) * 2016-12-26 2020-02-28 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014182458A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for controlling voice activation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语音关键词识别中的置信度研究;李文昕;《中国优秀硕士学位论文全文数据库信息科技》;20130615(第6期);全文 *

Also Published As

Publication number Publication date
CN108198548A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108198548B (zh) 一种语音唤醒方法及其系统
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN108010515B (zh) 一种语音端点检测和唤醒方法及装置
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
CA2663568C (en) Voice activity detection system and method
US9818407B1 (en) Distributed endpointing for speech recognition
WO2020220439A9 (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN109887511A (zh) 一种基于级联dnn的语音唤醒优化方法
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质
CN112825250A (zh) 语音唤醒方法、设备、存储介质及程序产品
CN113192501B (zh) 一种指令词识别方法及装置
JPH10254475A (ja) 音声認識方法
KR20070069631A (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
CN114155882B (zh) 一种基于语音识别的“路怒”情绪判断方法和装置
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN115831109A (zh) 语音唤醒方法、装置、存储介质及电子设备
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
Breslin et al. Continuous asr for flexible incremental dialogue
JP2003280678A (ja) 音声認識装置
KR100284405B1 (ko) 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법
US20090112591A1 (en) System and method of word lattice augmentation using a pre/post vocalic consonant distinction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant