CN109461456A - 一种提升语音唤醒成功率的方法 - Google Patents
一种提升语音唤醒成功率的方法 Download PDFInfo
- Publication number
- CN109461456A CN109461456A CN201811466502.8A CN201811466502A CN109461456A CN 109461456 A CN109461456 A CN 109461456A CN 201811466502 A CN201811466502 A CN 201811466502A CN 109461456 A CN109461456 A CN 109461456A
- Authority
- CN
- China
- Prior art keywords
- wake
- voice
- score
- voice signal
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000001737 promoting effect Effects 0.000 title claims description 16
- 238000012545 processing Methods 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 22
- 230000002618 waking effect Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 13
- 230000003993 interaction Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供了一种提升语音唤醒成功率的方法,该方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率,该方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合,并通过关联该两者各自的信息以构建一个闭环反馈回路,该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间,以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息,这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。
Description
技术领域
本发明涉及人机语音交互的技术领域,特别涉及一种提升语音唤醒成功率的方法。
背景技术
随着人工智能技术的发展,其广泛应用于人们的生活和工作中,人们通过人工智能技术就能够以较为便捷的方式解决特定领域的问题。人工智能技术之所以能够融入人们的生活和工作主要得益于人机交互技术的不断改进。人机交互技术使得人们能够采用人与人之间普遍存在交流方式就能够简单便捷地实现人与机器之间的交流互动。目前,人机交互技术的主要实现方式包括人机语音交互或者人机动作交互等;其中,该人机语音交互主要是模拟人与人之间的语言交流方式在人与机器之间进行相应的语言交流,该人机动作交互主要是通过机器识别用户的手势动作等,并基于该手势动作提取其中所表示的含义以此作出合适的反馈。由于人机动作交互需要相应的摄像设备来对动作进行拍摄,这要求用户必须在特定视角范围内进行相应的动作,其具有较大的局限性;相反地,人机语音交互对于机器与用户之间的相对位置关系并没有十分严格的要求,只要机器能够接收到关于用户清晰的语音信号即可,这极大地提高人机交互模式的便捷性。
在机器与用户之间的人机语音交互过程中,为了节省机器的电能消耗量或者降低机器的运作负载,若该机器在预定时长内接收不到相应的语音信号,其就会进入相应的休眠状态,一旦该机器接收到来自用户的特定内容语音信号,该机器就会从当前的休眠状态切换至工作状态,这一过程通常被称为语音唤醒。该语音唤醒操作的技术原理主要是对机器实施大量关于声学和语法模型的语音数据训练,并在语音唤醒过程中对该机器接收到的语音信号持续进行解码打分操作,并基于该解码打分操作得到的分数高低来决定是否对该机器实施唤醒操作。但是,该机器接收到的语音信号必然会夹杂不同类型的噪声,该噪声会对该语音唤醒产生影响。
发明内容
在人机语音交互的语音唤醒技术中,当唤醒语音中存在噪声或混响等干扰因素时,机器对该唤醒语音的解码打分值会大幅度降低,这会使语音唤醒机器的成功率显著下降。为了解决该唤醒语音中噪声或混响引起的问题,该机器通常会使用麦克风阵列处理技术来降低复杂场景中存在的噪声和混响干扰。而该麦克风阵列处理技术中最为有效的当属波束形成技术,该波束形成技术通常需要在预知噪声的方位角的情况下,保留主瓣方向信号并抑制干扰分量,但是在实际应用过程中,该噪声和混响的干扰会导致很难准确估计噪声孤立帧的方位角,即使在该方位角估计准确的情况下也很难在唤醒阶段实现实时的波束形成。
针对现有语音唤醒技术存在的缺陷,本发明提供一种提升语音唤醒成功率的方法,该方法深度结合了语音唤醒和麦克风阵列信号处理这两者,并且上述两者各自的信息相互形成一个闭环反馈回路,该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间,以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息,这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精确迅速的唤醒结果。
本发明提供一种提升语音唤醒成功率的方法,所述方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率,其特征在于,所述方法包括:
步骤(1),所述终端设备的唤醒引擎单元持续接收与来自外界的语音信号,同时将所述语音信号进行多通道缓存处理,随后对所述语音信号进行解析和判分处理,并将所述判分处理得到的分数与一唤醒分数阈值和一噪声干扰分数阈值进行比较处理,若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值,则所述终端设备的控制单元返回关于所述终端设备的唤醒词对应的生成起止时间点;
步骤(2),基于所述唤醒词的生成起止时间点,从所述多通道缓存中提取与所述唤醒词对应的语音信号,并计算所述语音信号的导向矢量;
步骤(3),提取所述多通道缓存中的其他语音信号,进而计算所述其他语音信号对应的噪声相关矩阵;
步骤(4),将所述多通道缓存中所述唤醒词对应的语音信号执行关于所述导向矢量和所述噪声相关矩阵的波束形成处理,并将所述波束形成处理的结果传送至所述唤醒引擎单元,再次对所述波束形成处理的结果进行解析和判分处理;
进一步,在步骤(1)中,所述唤醒引擎单元将经过多通道缓存处理后的语音信号进行自适应降噪处理,然后通过神经网络对所述语音信号依次进行解析和判分处理,以得到关于所述语音信号的对应特定词总体判分分数;
进一步,在步骤(1)中,通过神经网络对所述语音信号依次进行解析和判分处理具体为所述神经网络首先将所述语音信号转换为相对应的数据信息,随后将所述数据信息与所述特定词进行相关性计算处理,并根据所述相关性计算处理的结果得到所述判分分数;
进一步,在步骤(1)中,若所述分数大于或者等于所述唤醒分数阈值,则所述唤醒引擎单元向所述终端设备发送一唤醒脉冲信号,以使所述终端设备从休眠状态切换至工作状态,同时所述唤醒引擎单元终止所述步骤(2)、(3)和(4)的执行;
进一步,在步骤(1)中,所述唤醒词对应的生成起止时间点的获取包括所述唤醒引擎单元持续接收来自外界的语音信号,并通过其自身预设的唤醒词网络,对所述语音信号连续进行解码和判分处理,当所述判分处理得到的分数具有最大值时,所述唤醒引擎单元能够对所述解码处理对应过程中的最优路径进行回溯处理,并通过该回溯处理得到所述唤醒词在所述最优路径中的发生时间段,并结合当前实际时间,计算出所述唤醒词对应的生成起止时间点;
进一步,在步骤(2)中,计算所述语音信号的导向矢量包括基于所述唤醒词的生成起止时间点和所述唤醒词对应的数据段直接计算得出所述导向矢量,或者先计算得出所述数据段的方位角、在根据所述方位角计算得出所述导向矢量;
进一步,在步骤(2)中,计算所述方位角或者所述导向向量包括对所述数据段按照不同帧获取其相应的方位角数据,将所述不同帧对应的方位角数据进行综合处理以得到所需的方位角,随后通过所述综合处理得到的方位角计算出所述导向向量,或者通过计算所述语音信号的信号相关矩阵并分解获取所述信号矩阵的矩阵特征值,来直接计算出所述导向向量;
进一步,在步骤(3)中,将与所述唤醒词对应的语音信号从所述多通道缓存中剔除,对所述多通道缓存中剩余的语音信号进行统计计算,从而得到所述噪声相关矩阵;
进一步,在步骤(4)中,所述波束形成处理是基于所述导向向量和所述噪声相关矩阵实现的,所述波束形成处理能够保留所述语音信号在主瓣方向的有效信息分量,并去除所述语音信号在旁瓣方向的干扰信息分量;
进一步,在步骤(4)中,当再次对所述波束形成处理的结果进行解析和判分处理后,将判分处理得到的分数与所述唤醒分数阈值进行比较处理,若所述分数大于或者等于所述唤醒分数阈值,则将所述终端设备从休眠状态切换至工作状态,若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值,则重新执行步骤(1)、(2)、(3)和(4),直到所述分数大于或者等于所述唤醒分数阈值为止。
相比于现有技术,本发明的提升语音唤醒成功率的方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合,并通过关联该两者各自的信息以构建一个闭环反馈回路,该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间,以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息,这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种提升语音唤醒成功率的方法的流程示意图。
图2为本发明实施例中一种提升语音唤醒成功率的方法所针对的终端设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
参阅图1,为本发明实施例提供的一种提升语音唤醒成功率的方法的流程示意图。该提升语音唤醒成功率的方法主要用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率。
参阅图2,为本发明实施例提供的一种提升语音唤醒成功率的方法所针对的终端设备的结构示意图。该终端设备优选为具有语音交互功能的电子设备,该电子设备可为但不限于是洗衣机、冰箱、空调、电视、抽油烟机、微波炉、扫地机器人、音频播放器或者照明设备等。
该终端设备主要包括语音接收单元、语音释义识别单元、语音反馈单元和唤醒引擎单元。其中,该语音接收单元用于接收外界用户输入的语音信号;优选地,该语音接收单元可为但不限于是麦克风或者麦克风阵列。该语音释义识别单元适用于从该语音信号中提取有效的语音数据并对该有效的语音数据进行分析判断以获得该有效的语音数据表示的语义;其中,该有效的语音数据优选为该语音信号中去除噪声信号后剩下的信噪比满足预设要求的语音数据,该噪声信号包括但不限于是外界环境的背景噪声和/或该终端设备内部固有的噪声。该语音反馈单元用于根据该语音释义识别单元获得的语义选择与其对应的音频信号,并播放该音频信号以实现对用户的应答。该唤醒引擎单元是用于控制该终端设备进行工作状态的切换,当该终端设备在预定时长范围内没有接收到任何语音信号或者其他激励操作,该终端设备就会切换至一休眠状态,在该终端设备处于休眠状态的过程中,该唤醒引擎单元仍然处于一活跃状态以维持对该语音接收单元、语音释义识别单元和语音反馈单元的控制,并在来自用户的语音信号符合预设唤醒条件后,该唤醒引擎单元就会对该终端设备进行激励,从而使该终端设备由当前所处的休眠状态切换回活跃状态。通过该终端设备上述的唤醒过程,其能够保证该终端设备在空闲时段中除了唤醒引擎单元外的其他功能单元都处于休眠状态,该过程既能够降低该终端设备的能耗和避免该终端设备的内核单元长期满载工作,也能够保证该终端设备能够随时被切换回活跃状态并正常工作。
继续参阅该图1,该提升语音唤醒成功率的方法具体包括如下步骤:
步骤(1),该终端设备的唤醒引擎单元持续接收与来自外界的语音信号,同时将该语音信号进行多通道缓存处理,随后对该语音信号进行解析和判分处理,并将该判分处理得到的分数与一唤醒分数阈值和一噪声干扰分数阈值进行比较处理,若该分数小于该唤醒分数阈值且大于该噪声干扰分数,则该终端设备的控制单元返回关于该终端设备的唤醒词对应的生成起止时间点;其中,该噪声干扰分数阈值是用于排除来自外界噪声对该唤醒引擎单元输入的信号造成的干扰,这是由于该终端设备所处的外界环境必然存在相应的噪声信号,通过设置该噪声干扰分数阈值能够避免该噪声信号对该唤醒引擎单元引起的误唤醒,从而进一步地将外界环境噪声信号进行排除,以提高该语音唤醒的准确性。
具体来说,该唤醒引擎单元会指示该语音接收单元持续接收来自外界用户的语音信号,以及指示该语音接收单元能够将接收到的语音信号保存至一多通道缓存单元的不同缓存通道中。随后,该唤醒引擎接收单元向该语音释义识别单元发送一工作指令,该语音释义识别单元在接收到该工作指令后,从所述多通道缓存单元中选取相应的语音信号,并首先对该语音信号进行自适应降噪处理,随后该语音释义识别单元通过神经网络对经过自适应降噪处理后的该语音信号依次进行解析和判分处理,从而得到关于该语音信号的对应特定词总体判分分数。
优选地,该语音释义识别单元通过神经网络对该语音信号依次进行解析和判分处理具体为该神经网络首先将该语音信号转换为相对应的数据信息,随后将该数据信息与该特定词进行相关性计算处理,并根据该相关性计算处理的结果得到该判分分数。
优选地,在将该判分处理得到的分数与一唤醒分数阈值进行比较处理后,若该分数大于或者等于该唤醒分数阈值,则该唤醒引擎单元会向该终端设备的内核单元发送一唤醒脉冲信号,以激励该终端设备从当前的休眠状态切换至活跃的工作状态,同时该唤醒引擎单元会终止执行后续的步骤(2)、(3)和(4)。
优选地,该唤醒词对应的生成起止时间点的获取过程具体可包括该唤醒引擎单元持续接收来自外界的语音信号,并通过其自身预设的唤醒词网络,对该语音信号连续进行解码和判分处理,当该判分处理得到的分数具有最大值时,该唤醒引擎单元能够对该解码处理对应过程中的最优路径进行回溯处理,并通过该回溯处理得到该唤醒词在该最优路径中的发生时间段,并结合当前实际时间,计算出该唤醒词对应的生成起止时间点。
步骤(2),基于该唤醒词的生成起止时间点,从该多通道缓存中提取与该唤醒词对应的语音信号,并计算该语音信号的导向矢量。
优选地,计算该语音信号的导向矢量的过程可包括基于该唤醒词的生成起止时间点和该唤醒词对应的数据段直接计算得出该导向矢量,或者先计算得出该数据段的方位角、在根据该方位角计算得出该导向矢量;举例来说,假设平面声波以方位角θ入射到麦克风阵列上,此时该麦克分阵列的输入信号的导向矢量为a(θ)=[1,e-jΦ,…,e-j(M-1)Φ]T,其中Φ=2πdsinθ/λ。
优选地,计算该方位角或者该导向向量包括对该数据段按照不同帧获取其相应的方位角数据,将该不同帧对应的方位角数据进行综合处理以得到所需的方位角,随后通过该综合处理得到的方位角计算出该导向向量,或者通过计算该语音信号的信号相关矩阵并分解获取该信号矩阵的矩阵特征值,来直接计算出该导向向量。
步骤(3),提取该多通道缓存中的其他语音信号,进而计算该其他语音信号对应的噪声相关矩阵。
优选地,提取该多通道缓存中的其他语音信号,进而计算该其他语音信号对应的噪声相关矩阵具体为将与该唤醒词对应的语音信号从该多通道缓存中剔除,对该多通道缓存中剩余的语音信号进行统计计算,从而得到该噪声相关矩阵。
相应地,单一频带对应的噪声相关矩阵的计算公式可为:
其中,N表示某一频带对应语音信号的总帧数,Vi表示第i帧语音信号对应的多通道语音向量。
由于该多通道缓存中剩余的语音信号同时存在不同频带的信号,并且不同频带的信号之间是相互独立的,故可以先分别计算不同频带的信号各自对应的噪声相关矩阵,再基于所有频带信号对应的噪声相关矩阵,与对应的导向矢量,获得各个频带对应的波束形成的权向量W。
最终,该波束形成的权向量W计算公式可为:
其中,表示噪声相关矩阵RNoise的逆矩阵,d表示导向矢量,dH表示导向矢量d的共轭转置。
步骤(4),将该多通道缓存中该唤醒词对应的语音信号执行关于该导向矢量和该噪声相关矩阵的波束形成处理,并将该波束形成处理的结果传送至该唤醒引擎单元,再次对该波束形成处理的结果进行解析和判分处理。
优选地,该波束形成处理是基于该导向向量和该噪声相关矩阵实现的,该波束形成处理能够保留该语音信号在主瓣方向的有效信息分量,并去除该语音信号在旁瓣方向的干扰信息分量。
优选地,当再次对该波束形成处理的结果进行解析和判分处理后,将判分处理得到的分数与该唤醒分数阈值进行比较处理,若该分数大于或者等于该唤醒分数阈值,则将该终端设备从休眠状态切换至工作状态,若该分数小于该唤醒分数阈值且大于该噪声干扰分数阈值,则重新执行步骤(1)、(2)、(3)和(4),直到该分数大于或者等于该唤醒分数阈值为止。
从上述实施例可以看出,该提升语音唤醒成功率的方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合,并通过关联该两者各自的信息以构建一个闭环反馈回路,该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间,以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息,这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种提升语音唤醒成功率的方法,所述方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率,其特征在于,所述方法包括:
步骤(1),所述终端设备的唤醒引擎单元持续接收与来自外界的语音信号,同时将所述语音信号进行多通道缓存处理,随后对所述语音信号进行解析和判分处理,并将所述判分处理得到的分数与一唤醒分数阈值和一噪声干扰分数阈值进行比较处理,若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值,则所述终端设备的控制单元返回关于所述终端设备的唤醒词对应的生成起止时间点;
步骤(2),基于所述唤醒词的生成起止时间点,从所述多通道缓存中提取与所述唤醒词对应的语音信号,并计算所述语音信号的导向矢量;
步骤(3),提取所述多通道缓存中的其他语音信号,进而计算所述其他语音信号对应的噪声相关矩阵;
步骤(4),将所述多通道缓存中所述唤醒词对应的语音信号执行关于所述导向矢量和所述噪声相关矩阵的波束形成处理,并将所述波束形成处理的结果传送至所述唤醒引擎单元,再次对所述波束形成处理的结果进行解析和判分处理。
2.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(1)中,所述唤醒引擎单元将经过多通道缓存处理后的语音信号进行自适应降噪处理,然后通过神经网络对所述语音信号依次进行解析和判分处理,以得到关于所述语音信号的对应特定词总体判分分数。
3.如权利要求2所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(1)中,通过神经网络对所述语音信号依次进行解析和判分处理具体为所述神经网络首先将所述语音信号转换为相对应的数据信息,随后将所述数据信息与所述特定词进行相关性计算处理,并根据所述相关性计算处理的结果得到所述判分分数。
4.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(1)中,若所述分数大于或者等于所述唤醒分数阈值,则所述唤醒引擎单元向所述终端设备发送一唤醒脉冲信号,以使所述终端设备从休眠状态切换至工作状态,同时所述唤醒引擎单元终止所述步骤(2)、(3)和(4)的执行。
5.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(1)中,所述唤醒词对应的生成起止时间点的获取包括所述唤醒引擎单元持续接收来自外界的语音信号,并通过其自身预设的唤醒词网络,对所述语音信号连续进行解码和判分处理,当所述判分处理得到的分数具有最大值时,所述唤醒引擎单元能够对所述解码处理对应过程中的最优路径进行回溯处理,并通过所述回溯处理得到所述唤醒词在所述最优路径中的发生时间段,并结合当前实际时间,计算出所述唤醒词对应的生成起止时间点。
6.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(2)中,计算所述语音信号的导向矢量包括基于所述唤醒词的生成起止时间点和所述唤醒词对应的数据段直接计算得出所述导向矢量,或者先计算得出所述数据段的方位角、在根据所述方位角计算得出所述导向矢量。
7.如权利要求6所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(2)中,计算所述方位角或者所述导向向量包括对所述数据段按照不同帧获取其相应的方位角数据,将所述不同帧对应的方位角数据进行综合处理以得到所需的方位角,随后通过所述综合处理得到的方位角计算出所述导向向量,或者通过计算所述语音信号的信号相关矩阵并分解获取所述信号矩阵的矩阵特征值,来直接计算出所述导向向量。
8.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(3)中,将与所述唤醒词对应的语音信号从所述多通道缓存中剔除,对所述多通道缓存中剩余的语音信号进行统计计算,从而得到所述噪声相关矩阵。
9.如权利要求7所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(4)中,所述波束形成处理是基于所述导向向量和所述噪声相关矩阵实现的,所述波束形成处理能够保留所述语音信号在主瓣方向的有效信息分量,并去除所述语音信号在旁瓣方向的干扰信息分量。
10.如权利要求1所述的一种提升语音唤醒成功率的方法,其特征在于,在步骤(4)中,当再次对所述波束形成处理的结果进行解析和判分处理后,将判分处理得到的分数与所述唤醒分数阈值进行比较处理,若所述分数大于或者等于所述唤醒分数阈值,则将所述终端设备从休眠状态切换至工作状态,若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值,则重新执行步骤(1)、(2)、(3)和(4),直到所述分数大于或者等于所述唤醒分数阈值为止。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466502.8A CN109461456B (zh) | 2018-12-03 | 2018-12-03 | 一种提升语音唤醒成功率的方法 |
PCT/CN2019/091258 WO2020113935A1 (zh) | 2018-12-03 | 2019-06-14 | 一种提升语音唤醒成功率的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466502.8A CN109461456B (zh) | 2018-12-03 | 2018-12-03 | 一种提升语音唤醒成功率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109461456A true CN109461456A (zh) | 2019-03-12 |
CN109461456B CN109461456B (zh) | 2022-03-22 |
Family
ID=65612332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811466502.8A Active CN109461456B (zh) | 2018-12-03 | 2018-12-03 | 一种提升语音唤醒成功率的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109461456B (zh) |
WO (1) | WO2020113935A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979185A (zh) * | 2019-04-11 | 2019-07-05 | 杭州微纳科技股份有限公司 | 一种远场语音输入装置 |
WO2020113935A1 (zh) * | 2018-12-03 | 2020-06-11 | 北京云知声信息技术有限公司 | 一种提升语音唤醒成功率的方法、装置及存储介质 |
CN111613211A (zh) * | 2020-04-17 | 2020-09-01 | 云知声智能科技股份有限公司 | 特定词语音的处理方法及装置 |
CN112259108A (zh) * | 2020-09-27 | 2021-01-22 | 科大讯飞股份有限公司 | 一种引擎响应时间的分析方法及电子设备、存储介质 |
CN112466304A (zh) * | 2020-12-03 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN112562666A (zh) * | 2020-11-30 | 2021-03-26 | 海信视像科技股份有限公司 | 一种筛选设备的方法及服务设备 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN115588435A (zh) * | 2022-11-08 | 2023-01-10 | 荣耀终端有限公司 | 语音唤醒方法及电子设备 |
US11823669B2 (en) * | 2019-08-23 | 2023-11-21 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
CN117575936A (zh) * | 2023-11-07 | 2024-02-20 | 浙江大学 | 一种基于通道相关性的磁共振图像去噪方法、装置及设备 |
CN112259108B (zh) * | 2020-09-27 | 2024-05-31 | 中国科学技术大学 | 一种引擎响应时间的分析方法及电子设备、存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365883B (zh) * | 2020-10-29 | 2023-12-26 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN113223518B (zh) * | 2021-04-16 | 2024-03-22 | 讯飞智联科技(江苏)有限公司 | 一种基于ai语音分析的边缘计算网关的人机互动的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN202794508U (zh) * | 2012-09-07 | 2013-03-13 | 南京理工大学 | 应用于救援的基于麦克风阵列的语音定位装置 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
US20180075867A1 (en) * | 2015-04-09 | 2018-03-15 | Sintef Tto As | Speech recognition |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102623272B1 (ko) * | 2016-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN111971742A (zh) * | 2016-11-10 | 2020-11-20 | 赛轮思软件技术(北京)有限公司 | 与语言无关的唤醒词检测的技术 |
CN106782563B (zh) * | 2016-12-28 | 2020-06-02 | 上海百芝龙网络科技有限公司 | 一种智能家居语音交互系统 |
CN107172018A (zh) * | 2017-04-27 | 2017-09-15 | 华南理工大学 | 公共背景噪声下激活式的声纹密码安全控制方法及系统 |
CN109461456B (zh) * | 2018-12-03 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种提升语音唤醒成功率的方法 |
-
2018
- 2018-12-03 CN CN201811466502.8A patent/CN109461456B/zh active Active
-
2019
- 2019-06-14 WO PCT/CN2019/091258 patent/WO2020113935A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN202794508U (zh) * | 2012-09-07 | 2013-03-13 | 南京理工大学 | 应用于救援的基于麦克风阵列的语音定位装置 |
US20180075867A1 (en) * | 2015-04-09 | 2018-03-15 | Sintef Tto As | Speech recognition |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113935A1 (zh) * | 2018-12-03 | 2020-06-11 | 北京云知声信息技术有限公司 | 一种提升语音唤醒成功率的方法、装置及存储介质 |
CN109979185A (zh) * | 2019-04-11 | 2019-07-05 | 杭州微纳科技股份有限公司 | 一种远场语音输入装置 |
US11823669B2 (en) * | 2019-08-23 | 2023-11-21 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
CN111613211A (zh) * | 2020-04-17 | 2020-09-01 | 云知声智能科技股份有限公司 | 特定词语音的处理方法及装置 |
CN112259108A (zh) * | 2020-09-27 | 2021-01-22 | 科大讯飞股份有限公司 | 一种引擎响应时间的分析方法及电子设备、存储介质 |
CN112259108B (zh) * | 2020-09-27 | 2024-05-31 | 中国科学技术大学 | 一种引擎响应时间的分析方法及电子设备、存储介质 |
CN112562666A (zh) * | 2020-11-30 | 2021-03-26 | 海信视像科技股份有限公司 | 一种筛选设备的方法及服务设备 |
CN112466304B (zh) * | 2020-12-03 | 2023-09-08 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN112466304A (zh) * | 2020-12-03 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN113160823B (zh) * | 2021-05-26 | 2024-05-17 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN115588435A (zh) * | 2022-11-08 | 2023-01-10 | 荣耀终端有限公司 | 语音唤醒方法及电子设备 |
CN117575936A (zh) * | 2023-11-07 | 2024-02-20 | 浙江大学 | 一种基于通道相关性的磁共振图像去噪方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020113935A1 (zh) | 2020-06-11 |
CN109461456B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109461456A (zh) | 一种提升语音唤醒成功率的方法 | |
WO2020083110A1 (zh) | 一种语音识别、及语音识别模型训练方法及装置 | |
US11620983B2 (en) | Speech recognition method, device, and computer-readable storage medium | |
US20210383795A1 (en) | Voice recognition method and apparatus, and air conditioner | |
CN110517670A (zh) | 提升唤醒性能的方法和装置 | |
US20140172423A1 (en) | Speech recognition method, device and electronic apparatus | |
CN106782585A (zh) | 一种基于麦克风阵列的拾音方法及系统 | |
CN112562742B (zh) | 语音处理方法和装置 | |
CN110491404A (zh) | 语音处理方法、装置、终端设备及存储介质 | |
CN110473539A (zh) | 提升语音唤醒性能的方法和装置 | |
CN108833969A (zh) | 一种直播流的剪辑方法、装置以及设备 | |
CN113345433B (zh) | 一种车外语音交互系统 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN108877827A (zh) | 一种语音增强交互方法及系统、存储介质及电子设备 | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN112751648B (zh) | 丢包数据恢复方法和相关装置、设备及存储介质 | |
CN113727242B (zh) | 一种在线拾音主电单元、方法及可穿戴设备 | |
CN110517702A (zh) | 信号生成的方法、基于人工智能的语音识别方法及装置 | |
CN109545210A (zh) | 一种提升语音识别稳健性的装置及其方法 | |
CN113611318A (zh) | 一种音频数据增强方法及相关设备 | |
CN107492381A (zh) | 一种聊天机器人的音色配置装置及其方法 | |
CN112420063A (zh) | 一种语音增强方法和装置 | |
Ince et al. | Whole body motion noise cancellation of a robot for improved automatic speech recognition | |
CN106886399A (zh) | 一种清理后台的方法及移动终端 | |
CN112466305A (zh) | 饮水机的语音控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 100089 a503, 5th floor, Mudan science and technology building, No.2 Huayuan Road, Haidian District, Beijing Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |