CN114121024A - 一种唤醒识别方法、音频装置以及音频装置组 - Google Patents

一种唤醒识别方法、音频装置以及音频装置组 Download PDF

Info

Publication number
CN114121024A
CN114121024A CN202011556351.2A CN202011556351A CN114121024A CN 114121024 A CN114121024 A CN 114121024A CN 202011556351 A CN202011556351 A CN 202011556351A CN 114121024 A CN114121024 A CN 114121024A
Authority
CN
China
Prior art keywords
audio device
wake
sound signal
angle
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011556351.2A
Other languages
English (en)
Inventor
李树为
孙渊
屈伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to PCT/CN2021/114728 priority Critical patent/WO2022042635A1/zh
Publication of CN114121024A publication Critical patent/CN114121024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及一种唤醒识别方法、音频装置以及音频装置组。音频装置组包括第一音频装置和第二音频装置,第一音频装置和第二音频装置均包括麦克风阵列,第一音频装置接收第一声音信号,第一声音信号包括唤醒源发出的声音信号;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果;第二音频装置接收第二声音信号,第二声音信号包括唤醒源发出的声音信号;第二音频装置对第二声音信号进行唤醒识别得到第二识别结果;第二音频装置向第一音频装置发送第二识别结果;第一音频装置基于第一识别结果和第二识别结果,确定是否唤醒。通过这种方式,第一音频装置可以综合两个音频装置的唤醒识别结果作唤醒判断,提升唤醒识别准确性。

Description

一种唤醒识别方法、音频装置以及音频装置组
本申请要求于2020年08月31日提交国家知识产权局、申请号为202010893958.3、申请名称为“一种唤醒识别方法与音频装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及终端技术领域,尤其涉及一种唤醒识别方法、音频装置以及音频装置组。
背景技术
为了提升音频播放效果,两个以上的音频装置的组合逐渐成为趋势。以音箱组合为例,用户在家里(如客厅)内使用音箱组合播放音乐。相对于单个音箱播放音乐而言,音箱组合播放音乐可以给用户带来更极致的听觉体验。
然而,在使用音箱组合的过程中,存在一些体验较差的场景:比如,音箱组合播放音乐的过程中,环境中声音较大,此时若用户发出语音唤醒词或语音指令,音响组合采集到的声音信息包括环境中所有的声音信息。比如,音箱组合采集到的声音信息不仅包括用户发出的声音,还包括音箱组合产生的声音。这样,由于其他的声音信息的干扰,用户发出的语音唤醒词或语音指令无法准确地被音箱组合识别。
发明内容
本申请的目的在于提供了一种唤醒识别方法、音频装置以及音频装置组,有助于提升唤醒识别的准确性。
第一方面,提供一种唤醒识别方法。该方法适用于音频装置组,音频装置组包括第一音频装置和第二音频装置,第一音频装置与第二音频装置能够通信,第一音频装置包括第一麦克风阵列,第二音频装置包括第二麦克风阵列。该方法包括:第一音频装置接收第一声音信号,第一声音信号中包括唤醒源发出的声音信号;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果;第二音频装置接收第二声音信号,第二声音信号包括唤醒源发出的声音信号;第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果;第二音频装置向第一音频装置发送第二识别结果;第一音频装置基于第一识别结果和第二识别结果,确定是否唤醒音频装置组。本申请提供的唤醒识别方法是两个音频装置协作进行唤醒识别,提升唤醒识别的准确性。
在一种可能的设计中,第一识别结果包括第一概率,第一概率为第一声音信号包括唤醒信息的概率;第二识别结果包括第二概率,第二概率为第二声音信号包括唤醒信息的概率;第一音频装置基于第一识别结果和第二识别结果,确定是否唤醒音频装置组,包括:若第一概率大于第一阈值、第二概率大于第二阈值;和/或,第一概率和第二概率二者的平均值或加权平均值大于第三阈值,确定唤醒音频装置组。也就是说,综合两个音频装置各自的唤醒识别结果进行唤醒识别,提升唤醒识别的准确性。
在一种可能的设计中,第一音频装置对第一声音信号进行唤醒识别得到第一识别结果之前,该方法还包括:第一音频装置对第一声音信号中来自第二音频装置的声音信号进行抑制;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果,包括:第一音频装置对抑制后的第一声音信号进行唤醒识别得到第一识别结果。也就是说,第一音频装置可以对非唤醒源所在方向的声音(如来自第二音频装置的声音)进行抑制,突出唤醒源的声音,提升唤醒识别的准确性。
在一种可能的设计中,第二音频装置对第二声音信号进行唤醒识别得到第二识别结果之前,该方法还包括:第二音频装置对第二声音信号中来自第一音频装置的声音信号进行抑制;第二音频装置对第二声音信号进行唤醒识别得到第二识别结果,包括:第二音频装置对抑制后的第二声音信号进行唤醒识别得到第二识别结果。也就是说,第二音频装置可以对非唤醒源所在方向的声音(如来自第一音频装置的声音)进行抑制,突出唤醒源的声音,提升唤醒识别的准确性。
在一种可能的设计中,第一音频装置对第一声音信号中来自第二音频装置的声音信号进行抑制之前,该方法还包括:第一音频装置确定第二音频装置和唤醒源处于不同方向;第二音频装置对第二声音信号中来自第一音频装置的声音信号进行抑制之前,该方法还包括:第二音频装置确定第一音频装置和唤醒源处于不同方向。也就是说,第一音频装置抑制来自第二音频装置的声音之前,判断第二音频装置和唤醒源是否在同一方向,如果不是,则抑制来自第二音频装置的声音,避免第二音频装置和唤醒源处于同一方向的情况下,在抑制第二音频装置所在方向的声音信号时将唤醒源的声音一并抑制了。
在一种可能的设计中,第一识别结果还包括第一角度,第一角度为唤醒源相对于第一音频装置的方向;第二识别结果还包括第二角度,第二角度为唤醒源相对于第二音频装置的方向;该方法还包括:第一音频装置基于第一角度和第二角度,确定唤醒源所在方向。本申请提供的唤醒识别方法是两个音频装置协作进行唤醒所在方向的确定,能够确定较为准确的唤醒源所在方向。
在一种可能的设计中,第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:当第一概率大于第二概率时,确定第一角度为唤醒源所在方向;当第二概率大于第一概率时,确定第二角度为唤醒源所在方向。也就是说,两个音频装置协作进行唤醒所在方向的确定,能够确定较为准确的唤醒源所在方向。
在一种可能的设计中,第二识别结果还包括第二距离,第二距离为唤醒源相对于第二音频装置的距离;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:第一音频装置利用第一距离、第二角度和第二距离,预测唤醒源相对于第一音频装置的第三角度;其中,第一距离为第一音频装置和第二音频装置之间的距离;第一音频装置根据第三角度和第一角度,确定唤醒源所在方向。也就是说,两个音频装置协作进行唤醒所在方向的确定,能够确定较为准确的唤醒源所在方向。
在一种可能的设计中,第三角度满足:
Figure BDA0002856022360000021
其中,β是第二角度;Sc-s为第二距离,D为第一距离,α′是第三角度。
在一种可能的设计中,第一音频装置根据第三角度和第一角度,确定唤醒源所在方向,包括:确定第三角度和第一角度的平均值或加权平均值为唤醒源所在方向;或者,
唤醒源所在方向满足:α±(ωi×Δ),ωi是预设值,Δ=|α-α′|,α是第一角度,所述α′是三角度。
在一种可能的设计中,在第一音频装置基于第一识别结果和第二识别结果,确定唤醒所述音频装置组之后,该方法还包括:第一音频装置接收到第三声音信号,第三声音信号包括语音指令;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令,该语音指令用于控制第一音频装置。由于两个音频装置协作进行唤醒所在方向的确定,确定出的唤醒源所在方向较为准确,所以在进行语音指令识别时,可以对唤醒源所在方向进行语音指令的识别,提升语音指令识别的准确性。
在一种可能的设计中,在第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令之前,该方法还包括:第一音频装置对第三声音信号中处于非唤醒源方向的声音信号进行抑制,非唤醒源所在方向为除了唤醒源所在方向之外的其它方向;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令,包括:第一音频装置对经过抑制后的第三声音信息中位于唤醒源所在方向的声音信号进行识别得到语音指令。也就是说,在语音指令识别时,第一音频装置可以对非唤醒源所在方向的声音(如来自第二音频装置的声音)进行抑制,突出唤醒源的声音,提升语音指令识别的准确性。
第二方面,提供一种唤醒识别方法。该方法适用于第一音频装置,该方法包括:第一音频装置接收第一声音信号,第一声音信号包括唤醒源发出的声音信号;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果;第一音频装置接收来自第二音频装置的第二识别结果;第二识别结果是第二音频装置对接收的第二声音信号进行唤醒识别得到识别结果;第一音频装置基于第一识别结果和第二识别结果,确定是否唤醒所述音频装置组。
在一种可能的设计中,第一识别结果包括第一概率,第一概率为第一声音信号包括唤醒信息的概率;第二识别结果包括第二概率,第二概率为第二声音信号包括唤醒信息的概率;
第一音频装置基于第一识别结果和第二识别结果,确定是否唤醒音频装置组,包括:若第一概率大于第一阈值、第二概率大于第二阈值;和/或,第一概率和第二概率二者的平均值或加权平均值大于第三阈值,确定唤醒音频装置组。
在一种可能的设计中,第一音频装置对第一声音信号进行唤醒识别得到第一识别结果之前,该方法还包括:第一音频装置对第一声音信号中来自第二音频装置的声音信号进行抑制;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果,包括:第一音频装置对抑制后的第一声音信号进行唤醒识别得到第一识别结果。
在一种可能的设计中,第一音频装置对第一声音信号中来自第二音频装置的声音信号进行抑制之前,该方法还包括:第一音频装置确定第二音频装置和唤醒源处于不同方向。
在一种可能的设计中,第一识别结果还包括第一角度,第一角度为唤醒源相对于第一音频装置的方向;第二识别结果还包括第二角度,第二角度为唤醒源相对于第二音频装置的方向;该方法还包括:
第一音频装置基于第一角度和第二角度,确定唤醒源所在方向。
在一种可能的设计中,第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:当第一概率大于第二概率时,确定第一角度为唤醒源所在方向;当第二概率大于第一概率时,确定第二角度为唤醒源所在方向。
在一种可能的设计中,第二识别结果还包括第二距离,第二距离为唤醒源相对于第二音频装置的距离;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:第一音频装置利用第一距离、第二角度和第二距离,预测唤醒源相对于第一音频装置的第三角度;其中,第一距离为第一音频装置和第二音频装置之间的距离;第一音频装置根据第三角度和第一角度,确定唤醒源所在方向。
在一种可能的设计中,第三角度满足:
Figure BDA0002856022360000041
其中,β是第二角度;Sc-s为第二距离,D为第一距离,α′是第三角度。
在一种可能的设计中,第一音频装置根据第三角度和第一角度,确定唤醒源所在方向,包括:
确定第三角度和第一角度的平均值或加权平均值为唤醒源所在方向;
或者,
唤醒源所在方向满足:α±(ωi×Δ),ωi是预设值,Δ=|α-α′|,α是第一角度,α′是三角度。
在一种可能的设计中,在第一音频装置基于第一识别结果和第二识别结果,确定唤醒音频装置组之后,该方法还包括:
第一音频装置接收到第三声音信号,第三声音信号包括语音指令;
第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令,所述语音指令用于控制第一音频装置。
在一种可能的设计中,在第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令之前,该方法还包括:第一音频装置对第三声音信号中处于非唤醒源所在方向的声音信号进行抑制,非唤醒源所在方向为除了唤醒源所在方向之外的其它方向;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令,包括:第一音频装置对经过抑制后的第三声音信息中位于唤醒源所在方向的声音信号进行识别,得到语音指令。
第三方面,还提供一种唤醒识别方法。该方法适用于第二音频装置,该方法包括:第二音频装置接收第二声音信号,第二声音信号包括唤醒源发出的声音信号;第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果;第二音频装置将第二识别结果发送给第一音频装置,以使第一音频装置根据第一识别结果和第二识别结果,进行唤醒判断,第一识别结果为第一音频装置对接收到的第一声音信号进行唤醒识别得到的识别结果。
在一种可能的设计中,第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果之前,该方法还包括:第二音频装置对第二声音信号中来自第一音频装置的声音信号进行抑制;第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果,包括:第二音频装置对抑制后的第二声音信号进行唤醒识别,得到第二识别结果。
在一种可能的设计中,第二音频装置对第二声音信号中来自第一音频装置的声音信号进行抑制之前,该方法还包括:第二音频装置确定第一音频装置和唤醒源处于不同方向。
在一种可能的设计中,第二识别结果还包括第二角度,第二角度为唤醒源相对于第二音频装置的方向,和/或,第二识别结果还包括第二距离,第二距离为唤醒源相对于第二音频装置的距离。
在一种可能的设计中,第二音频装置将第二识别结果发送给第一音频装置之前,该方法还包括:第二音频装置接收来自第一音频装置的查询请求,查询请求用于请求查询第二音频装置的识别结果。
第四方面,提供一种唤醒识别方法。该方法适用于第一音频装置,该方法包括:第一音频装置接收第一声音信号,第一声音信号包括唤醒源发出的声音信号;第一音频装置对第一声音信号进行唤醒识别得到第一识别结果;第一音频装置对第一声音信号中来自第二音频装置的声音进行抑制;第一音频装置对经过抑制后的第一声音信号进行唤醒识别得到第三识别结果;第一音频装置基于第一识别结果和第三识别结果,确定是否唤醒音频装置组。
在一种可能的设计中,第一音频装置对第一声音信号中来自第二音频装置的声音进行抑制之前,还包括:第一音频装置确定第二音频装置相对于第一音频装置的方向;第一音频装置对第一声音信号中来自第二音频装置的声音进行抑制,包括:第一音频装置对第一声音信号中位于所述方向的声音进行抑制。
在一种可能的设计中,第一识别结果包括第一概率,第一概率用于描述第一声音信号中包括唤醒信息的概率;第三识别结果包括第三概率,第三概率用于描述经过抑制后的第一声音信号中包括唤醒信息的概率,第一音频装置基于第一识别结果和第三识别结果,确定是否唤醒音频装置组,包括:第一概率大于第一阈值,和/或,第三概率大于第四阈值,和/或,第一概率和第三概率的平均值或加权平均值大于第五阈值时,确定唤醒音频装置组。
第五方面,提供一种唤醒源定位方法。该方法适用于音频装置组,该音频装置组包括第一音频装置和第二音频装置,第一音频装置包括第一麦克风阵列,第二音频装置包括第二麦克风阵列,第一音频装置与第二音频装置能够通信。该方法包括:第一音频装置接收第一声音信号;第一音频装置根据第一声音信号计算得到第一角度,第一角度为唤醒源相对于第一音频装置的方向;
第二音频装置接收第二声音信号;第二音频装置根据第二声音信号计算得到第二角度,第二角度为唤醒源相对于第二音频装置的方向;第二音频装置向第一音频装置发送第二角度;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向。本申请提供的唤醒识别方法是两个音频装置协作进行唤醒所在方向的确定,能够确定较为准确的唤醒源所在方向。
在一种可能的设计中,第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:当第一概率大于第二概率时,确定第一角度为唤醒源所在方向;当第二概率大于第一概率时,确定第二角度为唤醒源所在方向;其中,第一概率为第一声音信号中包括唤醒信息的概率;第二概率为第二声音信号中包括唤醒信息的概率。
在一种可能的设计中,在第一音频装置基于第一角度和第二角度,确定唤醒源所在方向之前,所述方法还包括:第二音频装置根据第二声音信号计算得到第二距离,第二距离为唤醒源相对于第二音频装置的距离;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:第一音频装置利用第一距离、第二角度和第二距离,预测唤醒源相对于第一音频装置的第三角度;其中,第一距离为第一音频装置和第二音频装置之间的距离;第一音频装置根据第三角度和第一角度,确定唤醒源所在方向。
在一种可能的设计中,第三角度满足:
Figure BDA0002856022360000061
其中,β是第二角度;Sc-s为第二距离,D为第一距离,α′是第三角度。
在一种可能的设计中,第一音频装置根据第三角度和第一角度,确定唤醒源所在方向,包括:确定第三角度和第一角度的平均值或加权平均值为唤醒源所在方向;或者,唤醒源所在方向满足:α±(ωi×Δ),ωi是预设值,Δ=|α-α′|,α是第一角度,α′是三角度。
在一种可能的设计中,该方法还包括:第一音频装置接收到第三声音信号,第三声音信号包括语音指令;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令,语音指令用于控制第一音频装置。
在一种可能的设计中,在第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令之前,该方法还包括:第一音频装置对第三声音信号中处于非唤醒源所在方向的声音信号进行抑制,非唤醒源所在方向为除了唤醒源所在方向之外的其它方向;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令,包括:第一音频装置对经过抑制后的第三声音信息中位于唤醒源所在方向的声音信号进行识别得到语音指令。
第六方面,提供一种唤醒源定位方法。该方法适用于第一音频装置,第一音频装置包括第一麦克风阵列,第二音频装置包括第二麦克风阵列,第一音频装置与第二音频装置能够通信。该方法包括:第一音频装置接收第一声音信号;第一音频装置根据第一声音信号计算得到第一角度,第一角度为唤醒源相对于第一音频装置的方向;第一音频装置接收来自第二音频装置的第二角度,第二角度是第二音频装置根据接收的第二声音信号计算得到第二角度,第二角度为唤醒源相对于第二音频装置的方向;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向。
在一种可能的设计中,第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:当第一概率大于第二概率时,确定第一角度为唤醒源所在方向;当第二概率大于第一概率时,确定第二角度为唤醒源所在方向;其中,第一概率为第一声音信号包括唤醒信息的概率;第二概率为第二声音信号包括唤醒信息的概率。
在一种可能的设计中,在第一音频装置基于第一角度和第二角度,确定唤醒源所在方向之前,该方法还包括:第二音频装置根据第二声音信号计算得到第二距离,第二距离为唤醒源相对于第二音频装置的距离;第一音频装置基于第一角度和第二角度,确定唤醒源所在方向,包括:第一音频装置利用第一距离、第二角度和第二距离,预测唤醒源相对于第一音频装置的第三角度;其中,第一距离为第一音频装置和第二音频装置之间的距离;第一音频装置根据第三角度和第一角度,确定唤醒源所在方向。
在一种可能的设计中,第三角度满足:
Figure BDA0002856022360000062
其中,β是第二角度;Sc-s为第二距离,D为第一距离,α′是第三角度。
在一种可能的设计中,第一音频装置根据第三角度和第一角度,确定唤醒源所在方向,包括:确定第三角度和第一角度的平均值或加权平均值为唤醒源所在方向;或者,唤醒源所在方向满足:α±(ωi×Δ),ωi是预设值,Δ=|α-α′|,α是第一角度,α′是第三角度。
在一种可能的设计中,该方法还包括:第一音频装置接收到第三声音信号,第三声音信号包括语音指令;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令,语音指令用于控制第一音频装置。
在一种可能的设计中,在第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别,得到语音指令之前,该方法还包括:第一音频装置对第三声音信号中处于非唤醒源所在方向的声音信号进行抑制,非唤醒源所在方向为除了唤醒源所在方向之外的其它方向;第一音频装置对第三声音信号中位于唤醒源所在方向的声音信号进行识别得到语音指令,包括:第一音频装置对经过抑制后的第三声音信息中位于唤醒源所在方向的声音信号进行识别得到语音指令。
第七方面,提供一种唤醒源定位方法。该方法适用于第二音频装置,第二音频装置包括第二麦克风阵列,第二音频装置与第一音频装置能够通信。该方法包括:第二音频装置接收第二声音信号;第二音频装置根据第二声音信号计算得到第二角度,第二角度为唤醒源相对于第二音频装置的方向;第二音频装置向第一音频装置发送第二角度,以使第一音频装置基于第一角度和第二角度,确定唤醒源所在方向。
在一种可能的设计中,第二音频装置向第一音频装置发送第二角度之前,还包括:第二音频装置接收来自第一音频装置的查询请求,查询请求用于查询第二音频装置第二角度。
在一种可能的设计中,该方法还包括:第二音频装置对第二声音信号进行唤醒识别得到第二识别结果,第二识别结果包括第二概率,第二概率用于描述第二声音信号中包括唤醒信息的概率,和/或,第二识别结果还包括第二距离,第二距离为第二音频装置相对于第二音频装置的方向。
第八方面,提供一种音频装置组,包括:第一音频装置和第二音频装置;
第一音频装置包括:处理器;存储器;第一麦克风阵列;其中,所述存储器存储有计算机程序,所述计算机程序包括指令,当该指令被所述处理器执行时,使得第一音频装置执行如上述第一方面或第五方面提供的方法中第一音频装置的步骤;
第二音频装置包括:处理器;存储器;第二麦克风阵列;其中,存储器存储有计算机程序,所述计算机程序包括指令,当所述指令被所述处理器执行时,使得第二音频装置执行如上述第一方面或第五方面提供的方法中第二音频装置的步骤。
第九方面,提供一种第一音频装置,包括:处理器;存储器;第一麦克风阵列,其中,所述存储器存储有计算机程序,所述计算机程序包括指令,当所述指令被所述处理器执行时,使得第一音频装置执行如上述第二方面或第四方面或第六方面提供的方法步骤。
第十方面,提供了一种第一音频装置,所述音频装置包括执行上述第二方面或者第四方面或者第六方面的任意一种可能的设计的方法的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
第十一方面,提供一种第二音频装置,包括:处理器;存储器;第二麦克风阵列;存储器存储有计算机程序,所述计算机程序包括指令,当所述指令被所述处理器执行时,使得第二音频装置执行如上述第三方面或第七方面提供的方法步骤。
第十二方面,提供了一种第二音频装置,所述音频装置包括执行上述第三方面或者第七方面的任意一种可能的设计的方法的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
第十三方面,提供一种芯片,所述芯片与电子设备中的存储器耦合,用于调用存储器中存储的计算机程序并执行上述第一方面至第七方面中任一方面提供的方法,本申请实施例中“耦合”是指两个部件彼此直接或间接地结合。
第十四方面,提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如上述第一方面至第七方面任一方面提供的方法。
第十五方面,提供一种计算机程序产品,包括指令,当所述指令在计算机上运行时,使得所述计算机执行如上述第一方面至第七方面中任一方面提供的方法。
上述第二方面至第十五方面的有益效果,请参见第一方面的有益效果,不重复赘述。
附图说明
图1为本申请实施例提供的利用算法进行声音识别的流程示意图;
图2为本申请实施例提供的一个音频装置确定另一个音频装置所处方向的原理示意图;
图3为本申请实施例提供的应用场景的示意图;
图4为本申请实施例提供的应用场景的一种示例的示意图;
图5A为本申请实施例提供的一种唤醒识别方法的流程示意图;
图5B为本申请实施例提供的另一种唤醒识别方法的流程示意图;
图5C为本申请实施例提供的应用场景的另一种示例的示意图;
图5D为本申请实施例提供的又一种唤醒识别方法的流程示意图;
图6A为本申请实施例提供的又一种唤醒识别方法的流程示意图;
图6B、图6C和图6D为本申请实施例提供的计算第三角度的原理示意图;
图7为本申请实施例提供的音频装置组合与云端的交互示意图;
图8为本申请实施例提供的一种音频装置的结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
在本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
在详细阐述本申请之前,首先对本申请相关的名词进行解释。
(1)音频装置
音频装置是用于播放声音信号的装置。音频装置可以为音箱、手机、笔记本电脑、电视机、智能手环、手表等。所述音频装置也可以是逻辑装置,所谓逻辑装置可以理解为只要能播放声音信号逻辑单元/模块,不对硬件设备的类型、性能等作限制。例如,可以是一个或多个硬件设备中的一个或多个逻辑单元/模块。
音频装置还可以用于语音识别。通常,语音识别过程包括两个过程:唤醒识别和语音指令识别。其中,唤醒识别可以理解为识别唤醒语句,比如小爱小爱;语音指令识别可以理解为用于识别语音指令(或命令),比如播放歌曲XXX、切换下一首歌曲等。其中,音频装置中负责唤醒识别的模块称为唤醒识别模块,负责语音指令识别的模块称为语音指令识别模块。唤醒识别模块和语音指令识别模块是逻辑功能上的划分,二者对应的物理器件可以相同或不相同。
为了节省功耗,语音指令识别模块可以无需一直处于使能状态。比如,当唤醒识别模块检测到唤醒语句时,使能语音指令识别模块,语音指令识别模块执行语音指令识别。示例性的场景为:唤醒源(比如用户)发出声音信号,该声音信号包括唤醒语句,该声音信号被音频装置中的唤醒识别模块采集到,唤醒识别模块检测到声音信号中包括唤醒语句时,使能语音指令识别模块以通过语音指令识别模块进行语音识别。比如,当唤醒源(比如用户)再次发出声音信号(其中包含语音指令),该声音信号被语音识别模块采集到,语音识别模块识别声音信号中的语音指令,并响应于该语音指令执行相应的操作。
(2)算法
本申请涉及的算法可以包括唤醒识别算法和语音指令识别算法。其中,唤醒识别算法用于进行唤醒识别。比如,识别采集的声音信号中是否包括唤醒信息(比如,小爱小爱);语音指令识别算法用于进行语音指令的识别。比如,识别采集的声音信号中是否包括语音指令(比如,播放歌曲XXX)。
比如,以语音指令识别算法为例,图1的(a)为一种语音指令识别算法的流程示意图。如图1的(a)所示,语音指令识别算法的流程包括步骤1至步骤5。
步骤1、接收到声音信号,例如接收到唤醒源(比如用户)发出的声音信号。
步骤2、特征提取,可以理解为将声音信号中具有辨识度的成分提取出来。为了提高准确性,可以对每一帧声音信号的特征进行提取。其中,特征提取可以使用梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCC)算法提取,本申请实施例不详细介绍。
步骤3、基于特征得到音素,单词的发音由音素组成,汉语一般用声母、韵母等作为音素集。这个过程可以通过声学模型比如隐马尔可夫模型(hidden markov model,HMM)实现,本申请实施例不作详细介绍。
步骤4、基于音素得到单词;比如通过音素在语音字典中匹配单词。
步骤5、基于单词得到语句。假设得到的语句是播放歌曲XXX,那么音频装置响应该语音指令,播放歌曲XXX。
又如,以唤醒识别算法为例。图1的(b)为一种唤醒识别算法的流程示意图。如图1的(b)所示,唤醒识别算法的流程包括步骤1至步骤7。其中,步骤1至步骤5与语音指令识别流程中的步骤1至步骤5相同,不再赘述。下面介绍步骤6至步骤7。
步骤6、识别出的句子与预设句子比较,得到相似度。其中,预设句子是事先设置好的唤醒语句。
步骤7、输出相似度。比如,相似度是80%、60%等。
或者,还可以将相似度转换为概率值。比如,相似度是80%,对应的概率是0.8;相似度是20%,对应的概率是0.2。这种情况下,步骤7也可以输出概率值。
也就是说,唤醒识别算法可以计算出相似度或概率值。为了方便描述,将相似度和概率值统称为“置信度”。
需要说明的是,图1的(a)举例了一种语音指令识别算法,但是本申请对此不限定。其它的语音指令设备算法也是可以的。同样,图1的(b)举例了一种唤醒识别算法,但其它的唤醒识别算法也是可以的。
(3)置信度
置信度是指利用唤醒识别算法计算出的相似度或概率值。以置信度是概率值为例,用于指示声音信号中包括唤醒信息的概率。比如,概率值可以是0.1、0.5、0.9等。
(4)方向
本申请涉及的方向包括音频装置组合中一个音频装置相对于另一个音频装置的方向,或者,唤醒源相对于音频装置的方向,等等。所述方向可以使用角度来描述,比如,唤醒源相对于音频装置的方向可以是指唤醒源处于音频装置的北偏西30度,北偏东60度等等。
下面以麦克风阵列定位技术为例,介绍第一音频装置确定第二音频装置相对于第一音频装置的方向的原理。
第一音频装置中设置麦克风阵列。其中,麦克风阵列可以理解为按照特定规则(比如三行三列,五行五列等)分布的多个麦克风。
以第二音频装置发出的声波是平行波为例,参见图2所示,第一音频装置上的麦克风1在t1时刻接收到声波1,麦克风2在t2时刻接收到声波2。因此,声波1与声波2的时间差为t2-t1,所述时间差可以参见图2所示。
因为第二音频装置发出的声波时平行波,平行声波到达垂直面(与声波垂直的平面)的时间应该是相同的,所述垂直面请参见图2所示。因此,平行波到达麦克风1和麦克风2的距离差r=(t2-t1)*c。其中,t1、t2是已知量,声音传播速度c是已知量,还有麦克风1与麦克风2之间的距离D(比如麦克风1的质心与麦克风2的质心之间的距离)是已知量(该距离D可以是出厂时默认存储下的)。因此,如图2所示,可以通过上述的已知量t1、t2、c和D确定夹角θ。比如,所述夹角θ满足如下公式:
Figure BDA0002856022360000101
通过上面的公式,可以得到夹角θ的值,夹角θ用于指示第二音频装置相对于第一音频装置的方向。
图2是以麦克风阵列包括两个麦克风为例。可以理解的是,麦克风阵列中麦克风的数量可以更多。比如麦克风阵列是三行三列,包括9个麦克风,那么就可以得到多个夹角。所述多个夹角中的任意一个可作为第二音频装置相对于第一音频装置的方向,或所述多个夹角的平均值可作为第二音频装置相对于第一音频装置的方向。
上面以麦克风阵列定位技术为例进行介绍。可以理解的是,除去上述麦克风阵列定位技术之外,还可以使用其他的定位技术,比如波束指向(steered-beamformer)法,基于高分辨率谱分析(high-resolution spectral analysis)定向法,和基于声音时间差(time-delay estimation,TDE)定向法等等,本申请实施例不作限定。
需要说明的是,上文是以第一音频装置确定第二音频装置相对于第一音频装置的方向为例进行介绍。可以理解的是,第二音频装置确定第一音频装置相对于第二音频装置的方向的原理与上述原理类似,不再赘述。此外,第一音频装置或第二音频装置还可以基于如图2所示原理确定唤醒源(比如用户)所在方向。
(5)距离
本申请涉及的距离包括音频装置组合中第一音频装置与第二音频装置之间的距离,或者,唤醒源与音频装置之间的距离。
下面主要以第一音频装置与第二音频装置之间的距离为例介绍。
作为一种示例,所述距离的一种计算方式为:通过公式X=(2L2/γ)确定所述距离。其中,X为第二音频装置相对于第一音频装置的距离,γ为声波波长,L是麦克风阵列的长度(事先存储的值),假设麦克风阵列是图2中的两个麦克风,则L等于D;假设麦克风阵列中麦克风数量更多时,比如三行三列或三行四列的矩阵,则L等于矩阵的长,比如第一行第一列的麦克风的质心到第三行第一列的麦克风的质心之间的距离。
上述仅是举例了一种距离计算方式,其它的能够计算第一音频装置与第二音频装置之间距离的方式也是可以的。此外,第一音频装置还可以基于上述距离计算方式计算声源与第一音频装置的距离,当然,第二音频装置也可以基于上述距离计算方式计算唤醒源与第二音频装置的距离。
(6)本申请实施例中“多个”是指两个以上(包含两个),鉴于此,本申请实施例中也可以将“多个”理解为“至少两个”。“至少一个”,可理解为一个或多个,例如理解为一个、两个或更多个。例如,包括至少一个,是指包括一个或多个,而且不限制包括的是哪几个。例如,包括A、B和C中的至少一个,那么包括的可以是A、B、C,A和B,A和C,B和C,或A和B和C。同理,对于“至少一种”等描述的理解,也是类似的。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
除非有相反的说明,本申请实施例提及“第一”、“第二”等序数词用于对多个对象进行区分。比如,第一音频装置和第二音频装置,只是用来区分两个音频装置,不用于限定两个音频装置的顺序、时序、优先级或者重要程度。
图3为本申请实施例提供的应用场景的示意图。其中包括N个音频装置,N为大于或等于2的正整数。图3中相应简化,以N=2为例。其中,两个音频装置可以分别布局在不同的地理位置。两个音频装置中每个音频装置可以播放声音信号,而且两个音频装置之间可以通信实现数据传输。其中,两个音频装置可以是同一类型的音频装置,比如两个音频装置都是音箱;或者,都是手机、都是平板电脑等;或者,两个音频装置可以包括不同类型的音频装置,比如两个音频装置是音箱和手机的组合;或者,是手机与平板电脑的组合等。相对于单个音频装置播放音乐,两个音频装置同时播放音乐时,可以为用户提供较好的听觉体验。
以图3所示的应用场景为例,假设第一音频装置是主要音频装置,第二音频装置是次要音频装置。一般来说,唤醒识别过程包括:主要音频装置接收到声音信号之后,识别该声音信号中是否包括唤醒语句;如果是,就唤醒主要音频装置中的语音指令识别模块进行语音指令识别。这个过程中,次要音频装置没有参与,主要依赖主要音频装置进行唤醒识别。主要音频装置在唤醒识别时,会定位唤醒源(比如用户)相对于主要音频装置的方向。因此,语音指令识别过程一般包括:主要音频装置确定唤醒源的方向后,基于该方向进行语音指令的识别。比如,假设确定出唤醒源在角度1,主要音频装置接收到唤醒源的声音信号,认为所述声音信号中位于角度1的声音是唤醒源的声音,对位于角度1的声音进行语音指令识别。这个过程中,次要音频装置仍然没有参与。主要音频装置检测到语音指令时,执行该语音指令,并通知次要音频装置执行该语音指令(比如播放歌曲等),次要音频装置才参与使用。简单来说,只依赖主要音频装置进行唤醒识别、唤醒源的方向确定及语音指令的识别,次要音频装置不参与唤醒识别、唤醒源的方向确定及语音指令的识别。
然而,存在一些可能的场景:比如,环境中噪声较大,主要音频装置采集的声音信号中包括较多噪声,导致唤醒识别准确性降低、唤醒源的方向确定不准确,进而导致语音指令识别准确性低。
下面介绍所述场景的一种示例。
图4为本申请实施例提供的一种应用场景的示例。
图4为家庭内的客厅的示意图。客厅内设置两个音频装置(如,电视柜左右两侧的音频装置,比如第一音频装置和第二音频装置)。假设第一音频装置是主要音频装置,第二音频装置是次要音频装置。为了方便描述,以图4所示的场景(或环境)中仅有两个音频装置以及唤醒源(如,用户)发出声音为例。比如,两个音频装置正在播放音乐,唤醒源发出唤醒语句。这种情况下,主要音频装置接收到的声音信号中不仅包括唤醒源(即用户)发出的声音信号,还包括噪声源(即次要音频装置)发出的声音信号。这样的话,会导致如下问题:
1、由于噪声的干扰,主要音频装置唤醒识别的准确性较低。比如,唤醒源(比如用户)发出唤醒语句,但是由于受到次要音频装置的声音的干扰,导致主要音频装置无法识别出唤醒源发出的唤醒语句。比如,会出现用户多次发出唤醒语句,但是仍然无法唤醒音频装置的情况,用户体验较差。
2、由于噪声的干扰,主要音频装置无法准确的确定唤醒源的方向。比如,假设用户实际位于角度A,但是由于受到次要音频装置的声音信号的干扰,主要音频装置识别出用户在角度B,显然角度B是不准确的。
3、由于识别出唤醒源在角度B,所以在后续的语音指令识别过程中,主要音频装置对接收的声音信号中处于角度B的声音信号进行语音指令识别。显然,角度B对应的声音信号不是用户发出的声音信号,所以导致语音指令的准确性低。
鉴于此,本申请实施例提供一种唤醒识别方法。该方法不是单纯依赖主要音频装置进行唤醒识别、唤醒源的方向确定以及语音指令的识别,而是多个音频装置之间协作配合,提升唤醒识别和语音识别的准确性。
为了更清楚地展示本申请提供的技术方案,下面分多个实施例对本申请提供的技术方案进行说明。
实施例一
本实施例一介绍多个音频装置协作进行唤醒识别,不是单纯依赖一个音频装置进行唤醒设备,提升唤醒识别的准确性。
本实施例一以图4所示的应用场景为例进行介绍,即场景(或环境)中仅有两个音频装置以及唤醒源(如,用户)发出声音信号为例,比如,两个音频装置正在播放音乐,唤醒源发出唤醒语句。
第一种方式
第一种方式中,第一音频装置和第二音频装置均可以进行唤醒识别,分别得到各自的识别结果,第一音频装置综合两个识别结果作进一步的唤醒判断。比如,参见图5A,第一种方式的流程包括如下步骤:
S501,第一音频装置接收到第一声音信号。第一声音信号中包括唤醒源发出的唤醒语句,还包括第二音频装置发出的声音信号(图中未示出该过程)。
S502,第二音频装置接收到第二声音信号。第二声音信号中包括唤醒源发出的唤醒语句,还包括第一音频装置发出的声音信号(图中未示出该过程)。
其中,S501和S502的执行顺序本申请不作限定。
S503,第一音频装置对第一声音信号进行唤醒识别,得到第一识别结果。所述第一识别结果中包括第一置信度。所述第一置信度可以是第一音频装置利用唤醒识别算法计算出第一声音信号中包含唤醒语句的第一概率。其中,唤醒识别算法请参见前面名词解释部分的介绍,不再赘述。
S504,第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果。所述第二识别结果中包括第二置信度。所述第二置信度可以是第二音频装置利用唤醒识别算法计算出的第二声音信号中包括唤醒语句的第二概率。
可选的,第一音频装置和/或第二音频装置可以在每次接收到声音信号时,就开启唤醒识别算法进行置信度的计算。或者,为了节省功耗,第一音频装置和/或第二音频装置可以实时的监听唤醒源的声音信号的接收时刻,当所述接收时刻之间的时间间隔小于预设值时,说明环境中唤醒源在一直发出语音,可能是在聊天。此时,可以无需启动唤醒识别算法,继续保持监听状态。当监听到所述时间间隔大于预设值时,启动唤醒识别算法。
S505,第二音频装置将第二识别结果发送给第一音频装置。
可选的,第二音频装置每次计算出第二置信度时,可以主动发给第一音频装置;或者,第一音频装置还可以向第二音频装置发送用于查询第二置信度的查询信息(比如在S505之前),第二音频装置接收到查询信息之后,向第一音频装置发送第二置信度。或者,第二音频装置向第一音频装置发送第二置信度之前,还可以对第二置信度进行预判断。比如,判断第二置信度是否大于预设阈值;若大于,向第一音频装置发送第二置信度;否则,不向第一音频装置发送第二置信度。因为,当第二置信度很低时,说明第二音频装置可以确定接收的第二声音信号中不包括唤醒词,这样也就无需向第一音频装置发送第二置信度作进一步的唤醒识别。当然,第二音频装置也可以无需对第二置信度进行预判断,直接向第一音频装置发送第二置信度。
S506,第一音频装置基于第一识别结果和第二识别结果判断是否唤醒。如果是,执行S507,否则,可以不响应。
第一识别结果包括第一置信度,第二识别结果包括第二置信度,第一音频装置基于第一识别结果和第二识别结果判断是否唤醒,具体包括:基于第一置信度和第二置信度判断是否唤醒。比如,第一音频装置判断满足下述条件时,确定需要唤醒,所述条件包括如下条件中的至少一种:
1,第一置信度大于第一阈值,和/或,第二置信度大于第二阈值。其中,第一阈值和第二阈值可以相同或不同;比如,第一置信度是0.95,第一阈值是0.9,第二置信度是0.85,第二阈值是0.8,则第一音频装置唤醒。第一阈值和第二阈值可以是预设的。或者,第一阈值和第二阈值可根据用户需要进行设置或调整。
2,第一置信度和第二置信度两者的平均值或两者的加权平均值大于第三阈值。其中,所述加权平均值可以表示为P=第一置信度*A+第二置信度*B,其中,P是加权平均值,A和B是权重,A+B=1,A和B的取值可以事先设置好。第三阈值可以是预设的。或者,第三阈值可根据用户需要进行设置或调整。
可以理解的是,第一音频装置中包括唤醒识别模块和语音指令识别模块,语音指令识别模块无需一直处于使能状态。因此,第一音频装置基于第一识别结果和第二识别结果判断是否需要唤醒,可以理解为基于第一识别结果和第二识别结果,判断是否要唤醒第一音频装置中的语音指令识别模块。
S507,第一音频装置发出唤醒应答。
比如,第一音频装置确定唤醒时,可以发出“我在”的音频应答,以通知用户以唤醒第一音频装置。
可选地,S507不是必需步骤。也就是说,在一种实施方式中,该流程可以只包括S501-S506,不包括S507。
可选的,第一音频装置还可以向第二音频装置发送唤醒指令,以唤醒第二音频装置。比如,唤醒第二音频装置中的语音指令识别模块。当然,如果后续无需第二装置执行语音指令的识别的情况下,第一音频装置可以无需向第二音频装置发送唤醒指令;或者,第二音频装置中可以不设置语音指令识别模块。
需要说明的是,图5A是以第一音频装置根据第一识别结果和第二识别结果判断是否需要唤醒(S506)为例。可以理解的是,还可以由第二音频装置来执行该步骤。比如,第一音频装置向第二音频装置发送第一识别结果,第二音频装置基于第一识别结果和第二识别结果判断是否唤醒。
因此,第一种方式中,第一音频装置利用第二音频装置计算出的第二识别结果(包括第二置信度)判断是否需要唤醒,而不是单纯依据第一音频装置自身计算出的第一识别结果(包括第一置信度),一定程度上提升了唤醒识别的准确性。
第二种方式
上面的第一种方式中,两个音频装置各自进行了唤醒识别,共得到两个识别结果,然后综合两个识别结果判断是否唤醒。相对于第一种方式而言,第二种方式中,第一音频装置和/或第二音频装置在进行唤醒识别之前,还可以将接收到的声音信号中来自对方的声音进行抑制。比如,第一音频装置对接收的第一声音信号中来自第二音频装置的声音进行抑制,第二音频装置对接收的第二声音信号中来自第一音频装置的声音进行抑制。抑制后的声音信号突出了唤醒源的声音,对抑制后的声音信号进行唤醒识别时,更加提升唤醒识别的准确性。
具体地,请参见图5B,为第二种方式的流程示意图。所述流程包括:
S601,第一音频装置接收来自第二音频装置的第三声音信号。
S602,第一音频装置根据第三声音信号确定第二音频装置相对于第一音频装置的方向。
所述方向的计算过程请参见前文名词解释部分,不再赘述。为了提升准确性,可以实时地计算所述方向。比如,两个音频装置每次开始播放音乐时就计算,或者,每隔一段时间计算一次;或者,当第一音频装置或第二音频装置检测到位置发生变化(比如,音频装置上的传感器检测到位置变化)时计算。
可选的,S602也可以由第二音频装置来执行。比如,第二音频装置计算出第一音频装置相对于第二音频装置的方向,将该方向发送给第一音频装置。该方向的相反方向即第二音频装置相对于第一音频装置的方向。
也就是说,第二音频装置相对于第一音频装置的方向可以提前计算出,即在接收到唤醒源发出唤醒语句(即第一声音信号)之前,就已计算出所述方向,以便后面的流程中使用该方向对来自第二音频装置的声音进行抑制。
可选的,S601和S602可以不执行。比如,第一音频装置还可以通过其它方式获取第二音频装置相对于第一音频装置的方向。比如,用户手动输入等等,所以图中S601和S602使用虚线表示。
S603,第一音频装置接收到第一声音信号。第一声音信号包括唤醒源发出的唤醒语句,当然还包括来自第二音频装置的声音。
S604,第二音频装置接收到第二声音信号。第二声音信号包括唤醒源发出的唤醒语句,当然还包括来自第一音频装置的声音。
S605,第一音频装置对第一声音信号进行唤醒识别得到第一识别结果,所述第一识别结果包括第一置信度。
S606,第二音频装置对第二声音信号进行唤醒识别得到第二识别结果,所述第二识别结果包括第二置信度。
S607,第二音频装置将第二识别结果发送给第一音频装置。
S603至S607的实现原理与图5A中S501至S505的实现原理相同,不再赘述。
S608,第一音频装置对第一声音信号中位于所述方向的声音进行抑制。
简单来说,第一声音信号中包括唤醒源的声音信号,也包括较强的来自噪声源(即第二音频装置)的声音信号。对第一声音信号中位于所述方向的声音进行抑制得到的抑制后的声音信号中包括唤醒源的声音信号,可能还包括较弱的来自噪声源的声音信号,相对于原始声音信号(即第一声音信号)突出了唤醒源的声音。
可选的,假设所述方向为北偏西30度,第一音频装置可以将第一声音信号中位于北偏西30度的声音进行抑制。或者,第一音频装置也可以基于北偏西30度确定一个角度范围。比如,30度减去一个阈值1作为角度范围的最小值min,30度加上一个阈值2作为角度方位的最大值max,那么角度范围就是(min,max)的区间。比如,阈值1是5度,那么最小值min是30度-5度=25度;阈值2是10度,那么最大值max是30度+10度=40度;所以角度范围是区间(北偏西25度,北偏西40度)。第一音频装置将第一声音信号中位于这个角度范围内的声音进行抑制。
其中,抑制原理可以为:第一声音信号是来自多个方向的声音的叠加。比如,第一声音信号满足:A*声音信号1+B*其它声音信号。其中,A是第一权重,B是第二权重;A+B=1。假设声音信号1是位于所述方向的声音信号;其它声音信号包括唤醒源的声音信号。抑制后的声音信号满足:C*声音信号1+D*其它声音信号。其中,C是第三权重,D是第四权重;C+D=1;C小于A。也就是说,抑制后的声音信号中来自第二音频装置的声音信号的权重降低,突出了唤醒源发出的声音信号。
可选的,上述抑制过程可以实时的进行。比如在确定所述方向之后,第一音频装置对每次接收到的声音信号都进行抑制。或者,为了节省功耗,第一音频装置可以实时的监听唤醒源的声音信号的接收时刻。当所述接收时刻之间的时间间隔小于预设值时,可以无需抑制(环境中有人聊天),继续保持监听状态。当所述时间间隔大于预设值时,开始对采集的声音信号进行抑制。
S609,第一音频装置对抑制后的第一声音信号进行唤醒识别,得到第三识别结果,所述第三识别结果包括第三置信度。
需要说明的是,上述S603至S609的执行顺序,本申请不限定。
S610,第一音频装置根据第一识别结果、第二识别结果和第三识别结果判断是否唤醒。
第一识别结果包括第一置信度,第二识别结果包括第二置信度,第三识别结果包括第三置信度,第一音频装置基于第一置信度、第二置信度和第三置信度判断是否唤醒;如果是,执行S611;否则,可以不响应。比如,第一音频装置确定满足如下条件时,确定需要唤醒,所述条件包括如下至少一种:
1、第三置信度大于第四阈值,和/或,第一置信度大于第一阈值,和/或,第二置信度大于第二阈值。
2、第一置信度和第二置信度两者的平均值或两者的加权平均值大于第三阈值,和/或,第三置信度与第一置信度两者的平均值或两者的加权平均值大于第五阈值,和/或,第三置信度与第二置信度两者的平均值或两者的加权平均值大于第六阈值,和/或,第三置信度、第一置信度和第二置信度三者的平均值或三者的加权平均值大于第七阈值。
其中,第一阈值至第七阈值可以是预设的,或者,根据用户需要进行设置或调整。
S611,第一音频装置发出唤醒应答。
可选地,S611不是必需步骤;也就是说,在一种实施方式中,该流程只包括S601-S610,不包括S611。
需要说明的是,图5B中S605可以不执行,所以图中使用虚线表示。如果不执行S605,即第一音频装置不需要对第一声音信号进行唤醒识别得到第一识别结果,那么S610中可以仅基于第二识别结果和第三识别结果判断是否需要唤醒。第二识别结果包括第二置信度,第三识别结果包括第三置信度。比如,第三置信度大于第四阈值,和/或,第二置信度大于第二阈值,和/或,第三置信度和第二置信度二者的平均值或加权平均值大于第六阈值时,则唤醒。
需要说明的是,图5B中S606和S607可以不执行,所以图中使用虚线表示。如果不执行S606和S607,即不需要第二音频装置进行置信度的计算,对第二音频装置要求较低。这种情况下,如果S605执行,那么S610中可以基于第一识别结果和第三识别结果判断是否需要唤醒。第一识别结果包括第一置信度,第三识别结果包括第三置信度。比如,第三置信度大于第四阈值,和/或,第一置信度大于第一阈值,和/或,第三置信度和第一置信度二者的平均值或加权平均值大于第五阈值,则唤醒。如果S605不执行,那么S610中可以仅基于第三识别结果判断是否需要唤醒。比如,第三置信度大于第四阈值,则唤醒。
图5B的实施例以第一音频装置抑制来自第二音频装置的声音为例进行介绍。可以理解的是,第二音频装置也可以抑制来自第一音频装置的声音,然后对抑制后的声音进行唤醒识别,将识别结果发送给第一音频装置进行综合判断。其中,第二音频装置抑制来自第一音频装置的声音的原理与第一音频装置抑制来自第二音频装置的声音的原理相同,所以不再赘述。
在一些实施例中,第一音频装置可以默认使用第一种方式或第二种方式,或者,第一音频装置上设置切换按钮,通过该切换按钮实现第一种方式和第二种方式之间的切换。
第三种方式
上面的第一种方式第一音频装置不需要对第一声音信号进行抑制,第二种方式中第一音频装置需要对接收的第一声音信息中处于第二音频装置所在方向的声音信号进行抑制。考虑到存在一种可能的场景:对于第一音频装置而言,唤醒源和第二音频装置在同一方向。比如,如图5C所示,对于第一音频装置而言,第二音频装置和唤醒源在同一方向。这种场景下,如果对第二音频装置所在方向的声音进行抑制的话,会将唤醒源的声音一并抑制,所以为了避免将唤醒源的声音抑制,可以使用第三种方式。具体的,参见图5D,为第三种方式的流程示意图,该流程包括:
S801,第一音频装置接收到来自第二音频装置的第三声音信号。
S802,第一音频装置根据第三声音信号确定第二音频装置相对于第一音频装置的方向。
S803,第一音频装置接收到第一声音信号。第一声音信号包括唤醒源发出的唤醒语句,当然还包括来自第二音频装置的声音。
S804,第一音频装置根据第一声音信号计算唤醒源相对于第一音频装置的方向。
此处,由于第一声音信号中不仅包括唤醒源发出的声音,还包括第二音频装置的声音,所以第一音频装置可以基于第一声音信号中唤醒源的声音计算出唤醒源所在方向;其计算过程可以参见前面名词解释部分。
S805,第一音频装置判断唤醒源和第二音频装置是否在同一方向。
第一音频装置判断唤醒源和第二音频装置是否在同一方向,如果是,执行S806,否则,执行S807。
S806,第一音频装置使用第一种方式进行唤醒识别。
S807,第一音频装置使用第一种方式或第二种方式进行唤醒识别。
需要说明的是,第一种方式不需要对来自第二音频装置所在方向的声音进行抑制,所以当唤醒源与第二音频装置在同一方向时,可以使用第一种方式处理。当唤醒源和第二音频装置不在同一方向时,可以使用第二种方式或第一种方式处理。
可选的,第一音频装置可以默认使用第一种方式、第二种方式或第三种方式,或者,第一音频装置上设置切换按钮,通过该切换按钮实现三种方式之间的切换。
总结来说,实施例一中,第一音频装置进行唤醒识别时,不是单纯依靠第一音频装置自身进行唤醒识别,而是第一音频装置和第二音频装置协作进行唤醒识别,提升唤醒识别的准确性。
在一些实施例中,第一音频装置可以包括多种唤醒策略。比如,第一种唤醒策略和第二种唤醒策略。其中,第一种唤醒策略即现有技术的唤醒策略,即第一音频装置只基于自身检测到的信息进行唤醒识别,不参考第二音频装置的信息。第二种唤醒策略是指上述实施例一中第一音频装置和第二音频装置协作唤醒。另外,第一音频装置可以提供一个唤醒策略切换按钮,通过该唤醒策略切换按钮实现第一种唤醒策略和第二种唤醒策略之间的切换。在第一种唤醒策略下,第一音频装置识别唤醒源的准确性较低。比如,在环境中噪声较大的情况下,用户发出唤醒指令,但是迟迟无法唤醒设备。在第二种唤醒策略下,第一音频装置识别唤醒源的准确性较高。
可选地,第一音频装置和/或第二音频装置可以包括非唤醒状态(或者也可以称为休眠状态)、预唤醒阶段和唤醒阶段。以第一音频装置为例,非唤醒状态下第一音频装置中语音指令识别模块处于关闭状态,但声音采集模块(如麦克风)处于使能状态,可以采集声音。预唤醒阶段可以是进入唤醒阶段之前的一个阶段,可以认为是初步确定需要唤醒的阶段。唤醒阶段可以是第一音频装置中的语音识别模块已被唤醒的状态,可进行语音指令识别。
下面介绍三个阶段的切换过程。
可选地,第一音频装置处于非唤醒状态时,确定满足一定的条件时可以进入预唤醒阶段。比如,以图5A所示的流程为例,在非唤醒状态下,第一音频装置接收到第一声音信号,对第一声音信号进行识别得到第一识别结果,第一识别结果包括第一置信度。若第一置信度大于第一阈值,第一音频装置从非唤醒状态进入预唤醒阶段。可以理解为,第一音频装置初步确定是需要唤醒的,但是还需要结合第二音频装置的信息作进一步的判断,所以第一音频装置可以先进入预唤醒阶段。在进入预唤醒阶段后,第一音频装置可以为进入唤醒阶段作一些准备工作。比如,为语音指令识别模块上电,以作好启动语音指令识别模块的准备。如果结合第二音频装置的信息确定需要唤醒,那么第一音频装置从预唤醒阶段进入唤醒阶段。比如,启动语音指令识别模块。如果结合第二音频装置的信息确定不唤醒,那么第一音频装置从预唤醒阶段退回非唤醒阶段。此时,可以停止对语音指令识别模块的上电。
同理,在非唤醒状态下,第二音频装置接收到第二声音信号,对第二声音信号进行识别得到第二识别结果。第二识别结果包括第二置信度。在确定第二置信度大于第二阈值时,第二音频装置从非唤醒状态进入预唤醒阶段。即第二音频装置初步确定是需要唤醒的,但是还需要结合第一音频装置的信息作进一步的判断,所以第二音频装置先进入预唤醒阶段。如果结合第一音频装置的信息进一步判断确实需要唤醒,第二音频装置从预唤醒阶段进入唤醒阶段;否则,第二音频装置退出预唤醒阶段。
可选地,第一音频装置或第二音频装置处于预唤醒阶段的时长可以是第一预设时长(如事先设置好的时长,可以是用户设置也可以是设备出厂之前默认设置的)。假设在第一预设时长内未判断出是否需要唤醒,则退出预唤醒阶段。唤醒阶段的时长可以是第二预设时长,假设第二预设时长内未识别到语音指令,则退出唤醒阶段。
上面以第一音频装置和/或第二音频装置包括三种阶段(非唤醒状态、预唤醒阶段和唤醒阶段)为例进行介绍的,可选的,也可以仅包括两种阶段,比如,非唤醒阶段和唤醒阶段,本申请实施例不作限定。
实施例二
实施例一中第一识别结果包括第一置信度,第二识别结果包括第二置信度,所以第一音频装置可以根据第一置信度和第二置信度作唤醒判断。本实施例二中,第一音频装置得到的第一识别结果中除了包括第一置信度之外,还可以包括第一角度,所述第一角度描述唤醒源相对于第一音频装置的方向。第二音频装置识别得到的第二识别结果除了包括第二置信度之外,还可以包括第二角度,第二角度描述唤醒源相对于第二音频装置的方向。因此,本实施例二中,第一音频装置不仅可以根据第一识别结果中的第一置信度和第二识别结果中的第二置信度判断是否需要唤醒,还可以根据第一识别结果中的第一角度和第二识别结果中的第二角度确定唤醒源所在方向。简单来说,两个音频装置协作进行唤醒源所在方向的确定。相对于现有技术中没有第二音频装置的参与,由第一音频装置独自进行唤醒定位的方案而言,这种方式能够确定出较为准确的唤醒源所在方向。当确定出唤醒源所在方向之后,在语音识别阶段,可以对唤醒源所在方位的声音信号进行语音指令的识别,无需对所有方向的声音信息进行语音指令的识别,不仅可以提升语音识别效率,还可以提升语音指令识别的准确性。
本实施例二继续以图4所示的应用场景为例,即场景中仅有两个音频装置和唤醒源发出声音为例,且以两个音频装置位于水平线上(如图4的水平虚线)为例。
请参见图6A所示,为本实施例二提供的唤醒识别方法的流程示意图。所述流程包括:
S901,第一音频装置接收到来自第二音频装置的第三声音信号。
S902,第一音频装置根据第三声音信号确定两个音频装置之间的距离(为了方便描述,该距离称为设备间距),比如所述距离为D。
需要说明的是,S901和S902可以不执行,比如,第一音频装置还可以使用其他的方式测距,比如激光测距,用户手动输入距离等等,所以图中S901和S902使用虚线表示。
S903,第一音频装置接收到第一声音信号。第一声音信号包括唤醒源发出的唤醒语句,当然还包括来自第二音频装置的声音。
S904,第二音频装置接收到第二声音信号。第二声音信号包括唤醒源发出的唤醒语句,当然还包括来自第一音频装置的声音。
S905,第一音频装置对第一声音信号进行唤醒识别,得到第一识别结果。第一识别结果中包括第一置信度和第一角度,所述第一置信度为所述第一声音信号中包括唤醒语句的第一概率,所述第一角度描述唤醒源相对于第一音频装置的方向。其中,第一音频装置根据第一声音信号计算唤醒源相对于第一音频装置的第一角度的原理请参见前文名词解释部分。
S906,第二音频装置对第二声音信号进行唤醒识别,得到第二识别结果。第二识别结果中包括第二置信度和第二角度,所述第二置信度为所述第二声音信号中包括唤醒语句的第二概率,所述第二角度描述唤醒源相对于第二音频装置的方向。其中,第二音频装置根据第二声音信号计算唤醒源相对于第二音频装置的第二角度的原理请参见前文名词解释部分。
S907,第二音频装置向第一音频装置发送第二识别结果。
S908,第一音频装置根据第一置信度和第二置信度判断是否需要唤醒。如果需要,进入S909。
S909,第一音频装置根据第一角度和第二角度确定唤醒源所在方向。
第一种方式,如果第一置信度大于第二置信度时,确定第一角度为唤醒源所在方向;如果第二置信度大于第一置信度时,确定第二角度为唤醒源所在方向。
第二种方式,第二识别结果中还包括第二距离,所述第二距离为唤醒源到第二音频装置的距离。那么,先利用设备间距D、第二识别结果中包括的第二角度和第二距离,预测唤醒源相对于第一音频装置的第三角度,然后根据预测出的唤醒源相对于第一音频装置的第三角度和实际检测出的唤醒源相对于第一音频装置的第一角度(即S905),确定唤醒源的最终角度。
下面介绍预测唤醒源相对于第一音频装置的第三角度的过程。
参见图6B所示,第二角度和第二距离已知,而且第一音频装置和第二音频装置之间的设备间距也是已知的,所以通过距离D、第二角度、第二距离(边角边原理)可以构建出一个三角形(该过程不需要使用第一角度)。基于三角函数关系,可确定该三角形中的第三角度。所述构建的三角形满足如下三角函数关系:
sinβ×Sc-s=h
D-(cosβ×Sc-s)=P
α′=arctan(h/P)
其中,β是第二角度;Sc-s为第二距离,h是唤醒源到两个音频装置的质心连线的距离。D为第一音频装置与第二音频装置之间的距离(设备间距),P是D与第二音频装置到h所在直线的距离之差,α′是第三角度。
因此,通过上述公式可变形得到第三角度α′满足:
Figure BDA0002856022360000201
需要说明的是,图6B是以第二角度β是锐角为例,当然,第二角度β还可以是直角或钝角。
以钝角为例,请参见图6C,满足如下三角函数:
sin(180-β)×Sc-s=h
D+cos(180-β)×Sc-s)=P
α′=arctan(h/P)
因此,通过上述公式可变形得到第三角度α′满足:
Figure BDA0002856022360000202
以第二角度β是直角为例,请参见图6D所示,第三角度α满足:
Figure BDA0002856022360000203
因此,第一音频装置可以根据第二角度的大小,选择合适的计算方式。比如,当第二角度是锐角时,可以使用图6B所示的方式计算,当第二角度是钝角时,使用图6C所示的方式计算,当第二角度是直角时,使用图6D所示的角度计算。
以上介绍两个音频装置协作预测唤醒源相对于第一音频装置的第三角度的过程。
当预测出唤醒源相对于第一音频装置的第三角度之后,可以根据预测出的唤醒源相对于第一音频装置的第三角度和实际检测出的唤醒源相对于第一音频装置的第一角度(S905)确定唤醒源的最终角度。比如,第一音频装置根据第三角度对第一角度进行校正,校正后的角度为唤醒源的最终角度。其中,校正角度可通过如下至少一种方式确定:
方式1,取第三角度α′和第一角度α两者的平均值,该平均值即为校正后的角度。
方式2,确定第三角度α′和第一角度α之间的差的绝对值:Δ=|α-α′|;校正后的角度满足:α±(ωi×Δ),ωi可以是预设值。
除了上述方式1和方式2以外,在一些实施例中,第一音频装置可以确定第三角度α′和第一角度α之间的差的绝对值:Δ=|α-α′|;根据Δ判断是否需要对第一角度α进行校正。比如,参见如下公式:
Figure BDA0002856022360000211
当Δ较小(比如小于第一阈值θ1)时,即第三角度α和第一角度α之间的差的绝对值很小,此时可以无需对第一角度α校正,即校正后的αmodify=α。当然,也可以对夹角α校正,比如使用上述方式1或方式2进行校正。
当Δ较大(比如大于第二阈值θ2),即第三角度α和第一角度α之间的差的绝对值较大,此时也可以无需对第一角度α校正,即校正后的αmodify=α。当然,也可以对夹角α校正,比如使用上述方式1或方式2进行校正。
当Δ处于第一阈值θ1到第二阈值θ2的范围内时,需要对第一角度α校正,具体的校正方式可以是上述方式1或方式2。
其中,第一阈值θ1和第二阈值θ2可以为预设值,两者的取值,本申请实施例不作限定。比如,θ1是2、3度、5度等;θ2是2度、3度、5度等。两者可以相等,也可以不等。
当唤醒源所在方向确定之后,在语音指令识别阶段,可以对处于所述唤醒源所在方向的声音信号进行语音指令的识别,无需对所有方向的声音信号均进行语音指令的识别,提升效率。具体地,语音指令的识别过程参见图6A中的S910至S914。
S910,第一音频装置接收到第四声音信号。第四声音信号中包括语音指令。
S911,第一音频装置对第四声音信号中位于非唤醒源所在方向的声音抑制。
非唤醒源所在方向可以是指除去所述唤醒源所在方向之外的其它方向。假设唤醒源所在方向是北偏西30度,可以对第四声音信号中除去北偏西30度角度之外的其它角度进行抑制。或者,第一音频装置也可以基于唤醒源所在方向(如北偏西30度)确定一个角度范围,将第四声音信号中处于该角度范围内的声音信息进行抑制。
需要说明的是,S911是可选步骤,本实施例二的流程可以包含S911,也可以不包含S911。
S912,第一音频装置对第四声音信号中唤醒源所在方向的声音进行语音指令识别。
假设唤醒源所在方向是北偏西30度,第一音频装置可以对第四声音信号中位于北偏西30度的声音信号进行语音指令识别。或者,第一音频装置也可以基于唤醒源所在方向(如,北偏西30度)确定,确定一个角度范围。比如,30度减去一个阈值1作为角度范围的最小值min,30度加上一个阈值2作为角度方位的最大值max。那么角度范围就是(min,max)的区间。比如,阈值1是5度,那么最小值min是30度-5度=25度;阈值2是10度,那么最大值max是30度+10度=40度,所以角度范围是区间(北偏西25度,北偏西40度)。第一音频装置对第四声音信号中位于这个角度范围内的声音进行语音指令的识别。这样,第一音频装置无需对所有角度的声音都进行语音指令识别,节省功耗。
其中,语音指令的识别过程请参见前文名词解释部分,不再赘述。
S913,第一音频装置执行语音指令。
比如,语音指令是切换下一首歌曲,那么第一音频装置切换到下一首歌曲。
S914,第一音频装置向第二音频装置发送语音指令,以控制第二音频装置执行语音指令。
上面的实施例是以第一音频装置和第二音频装置作为执行主体来介绍的。可选的,上面的实施例中的部分步骤还可以由云端执行。以图5A为例,S506可以由云端执行。比如,参见图7,第一音频装置向第二音频装置发送预唤醒事件,所述预唤醒事件即第二识别结果,第一音频装置将第一识别结果和第二识别结果上报给云端,由云端根据第一识别结果和第二识别结果判断是否需要唤醒。如果需要,则向第一音频装置发送唤醒指令,用以唤醒第一音频装置,然后第一音频装置向第二音频装置发送唤醒指令。这种方式可以减轻第一音频装置的计算任务。
可选的,云端向第一音频装置发送唤醒指令之前,还可以向用户的移动终端发送提示信息,以提示用户是否确认要唤醒第一音频装置。当移动终端上检测到确认操作时,向云端发送确认指令,用于确认唤醒第一音频装置。第一音频装置接收到确认指令之后,向第一音频装置发送唤醒指令,可以避免误唤醒。
在一些实施例中,第一音频装置可以是主要音频装置,第二音频装置是次要音频装置;或者,第二音频装置是主要音频装置,第一音频装置是次要音频装置。其中,主要音频装置可以通过如下至少一种方式确定:
主要音频装置可以是预先设置好的一个或多个音频装置,那么N个音频装置中剩余的音频装置就是次要音频装置。比如,出厂之前默认设置好的。那么,次要音频装置即N个音频装置中剩余的音频装置。
或者,主要音频装置可以是用户指定的。比如,N个音频装置中每个音频装置通过触摸显示屏检测到输入操作,该输入操作用于选择所述每个音频装置是主要音频装置还是次要音频装置。
或者,主要音频装置可以是N个音频装置中性能最强的音频装置。所述性能最强的音频装置可以包括处理器性能最强的音频装置,比如处理器运算速度最快等。
其中,主要音频装置和次要音频装置可以具有相同或不同的结构。比如,主要音频装置具有显示屏,而次要音频装置不具有显示屏。或者,主要音频装置和从音箱播放设备可以负责不同的功能。比如,主要音频装置播放音频文件的左声道声音信息,次要音频装置播放音频文件的右声道声音信息。
上述实施例是以N=2为例介绍的。可以理解的是,音频装置组合中还可以包括更多个音频装置。当N为其它数值时,可以采用类似的原理,此处不重复赘述。
因此,本申请实施例中N个音频装置之间协作配合,实现了如下有益效果:
1、两个音频装置协作进行唤醒识别,提升了唤醒识别的准确性。
2、两个音频装置协作进行唤醒源方向的确定,提升了确定的唤醒源所在方向的准确性。
3、由于确定的唤醒源所在方向准确,后续进行语音指令识别时,可对位于唤醒源所在方向的声音信号进行语音指令识别,提升语音指令识别的准确性。
上述本申请提供的实施例是从音频装置作为执行主体的角度,对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,终端设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
如图8所示,本申请另外一些实施例公开了一种音频装置。该音频装置比如为音箱、手机、平板电脑、笔记本电脑、台式电脑等电子设备。如图8所示,音频装置可以包括:一个或多个处理器801;麦克风802、扬声器803、存储器804,其中,存储器804中包括一个或多个计算机程序805。上述各器件可以通过一个或多个通信总线806连接。其中,麦克风802可以是麦克风阵列,用于接收声音信号,还可以用于确定方向、距离等(参见前文名词解释部分)。扬声器803用于播放声音信号。
其中,所述一个或多个计算机程序805被存储在上述存储器804中并被配置为被该一个或多个处理器801执行,该一个或多个计算机程序805包括指令,上述指令可以用于执行如图5A至图6A及相应实施例中的各个步骤。
图8所示的音频装置可以是上文中的第一音频装置或第二音频装置。当图8所示的音频装置是第一音频装置时,可以用于执行上文中第一音频装置的相关步骤。当图8所示的音频装置是第二音频装置时,可以用于执行上文中第二音频装置的相关步骤。
以上实施例中所用,根据上下文,术语“当…时”或“当…后”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。另外,在上述实施例中,使用诸如第一、第二之类的关系术语来区份一个实体和另一个实体,而并不限制这些实体之间的任何实际的关系和顺序。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请实施例的具体实施方式而已,并不用于限定本申请实施例的保护范围,凡在本申请实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请实施例的保护范围之内。本申请说明书的上述描述可以使得本领域技术任何可以利用或实现本申请实施例的内容,任何基于所公开内容的修改都应该被认为是本领域显而易见的,本申请实施例所描述的基本原则可以应用到其它变形中而不偏离本申请的发明本质和范围。因此,本申请实施例所公开的内容不仅仅局限于所描述的实施例和设计,还可以扩展到与本申请原则和所公开的新特征一致的最大范围。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请实施例的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请实施例也意图包括这些改动和变型在内。

Claims (19)

1.一种唤醒识别方法,其特征在于,所述方法适用于音频装置组,所述音频装置组包括第一音频装置和第二音频装置,所述第一音频装置包括第一麦克风阵列,所述第二音频装置包括第二麦克风阵列,所述方法包括:
所述第一音频装置接收第一声音信号,所述第一声音信号包括唤醒源发出的声音信号;
所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果;
所述第二音频装置接收第二声音信号,所述第二声音信号包括唤醒源发出的声音信号;
所述第二音频装置对所述第二声音信号进行唤醒识别,得到第二识别结果;
所述第二音频装置向所述第一音频装置发送所述第二识别结果;
所述第一音频装置基于所述第一识别结果和所述第二识别结果,确定是否唤醒所述音频装置组。
2.如权利要求1所述的方法,其特征在于,所述第一识别结果包括第一概率,所述第一概率为所述第一声音信号包括唤醒信息的概率;所述第二识别结果包括第二概率,所述第二概率为所述第二声音信号包括唤醒信息的概率;
所述第一音频装置基于所述第一识别结果和所述第二识别结果,确定是否唤醒所述音频装置组,包括:
若所述第一概率大于第一阈值、所述第二概率大于第二阈值;和/或,第一概率和第二概率二者的平均值或加权平均值大于第三阈值,则唤醒所述音频装置组。
3.如权利要求1或2所述的方法,其特征在于,在所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果之前,所述方法还包括:
所述第一音频装置对所述第一声音信号中来自所述第二音频装置的声音信号进行抑制;
所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果,包括:
所述第一音频装置对抑制后的所述第一声音信号进行唤醒识别,得到第一识别结果。
4.如权利要求1-3中任意一项所述的方法,其特征在于,所述第二音频装置对所述第二声音信号进行唤醒识别,得到第二识别结果之前,所述方法还包括:
所述第二音频装置对所述第二声音信号中来自所述第一音频装置的声音信号进行抑制;
所述第二音频装置对所述第二声音信号进行唤醒识别,得到第二识别结果,包括:
所述第二音频装置对抑制后的所述第二声音信号进行唤醒识别,得到第二识别结果。
5.如权利要求3或4所述的方法,其特征在于,在所述第一音频装置对所述第一声音信号中来自所述第二音频装置的声音信号进行抑制之前,所述方法还包括:所述第一音频装置确定所述第二音频装置和所述唤醒源处于不同方向;
在所述第二音频装置对所述第二声音信号中来自所述第一音频装置的声音信号进行抑制之前,所述方法还包括:所述第二音频装置确定所述第一音频装置和所述唤醒源处于不同方向。
6.如权利要求2-5中任意一项所述的方法,其特征在于,所述第一识别结果还包括第一角度,所述第一角度用于指示所述唤醒源相对于所述第一音频装置的方向;所述第二识别结果还包括第二角度,所述第二角度用于指示所述唤醒源相对于所述第二音频装置的方向;所述方法还包括:所述第一音频装置基于所述第一角度和所述第二角度,确定所述唤醒源所在的方向。
7.如权利要求6所述的方法,其特征在于,所述第一音频装置基于所述第一角度和所述第二角度,确定唤醒源所在的方向,包括:
当所述第一概率大于所述第二概率时,确定所述第一角度指示所述唤醒源相对于所述第一音频装置的方向;
当所述第二概率大于所述第一概率时,确定所述第二角度指示所述唤醒源相对于所述第二音频装置的方向。
8.如权利要求6所述的方法,其特征在于,所述第二识别结果还包括第二距离,所述第二距离为所述唤醒源相对于第二音频装置的距离;所述第一音频装置基于所述第一角度和所述第二角度,确定所述唤醒源所在的方向,包括:
所述第一音频装置根据第一距离、所述第二角度和所述第二距离,预测所述唤醒源相对于所述第一音频装置的第三角度;其中,所述第一距离为所述第一音频装置与所述第二音频装置之间的距离;
所述第一音频装置根据所述第三角度和所述第一角度,确定所述唤醒源相对于所述第一音频装置的方向。
9.如权利要求8所述的方法,其特征在于,所述第三角度满足:
Figure FDA0002856022350000021
其中,β是所述第二角度;Sc-s为所述第二距离,D为所述第一距离,α′是所述第三角度。
10.如权利要求8或9所述的方法,其特征在于,所述第一音频装置根据所述第三角度和所述第一角度,确定所述唤醒源所在的方向,包括:
确定所述第三角度和所述第一角度的平均值或加权平均值,指示所述唤醒源相对于所述第一音频装置的方向;
或者,
所述唤醒源相对于所述第一音频装置的角度为α±(ωi×Δ),ωi是预设值,Δ=|α-α′|,α是所述第一角度,α′是所述三角度。
11.如权利要求6-10中任意一项所述的方法,其特征在于,在所述第一音频装置基于所述第一识别结果和所述第二识别结果,确定唤醒所述音频装置组之后,所述方法还包括:
所述第一音频装置接收到第三声音信号,所述第三声音信号包括语音指令;
所述第一音频装置对所述第三声音信号中位于所述唤醒源所在的方向的声音信号,进行识别,得到语音指令,所述语音指令用于控制所述第一音频装置。
12.如权利要求11所述的方法,其特征在于,在所述第一音频装置对所述第三声音信号中位于所述唤醒源所在的方向的声音信号,进行识别,得到语音指令之前,所述方法还包括:
所述第一音频装置对所述第三声音信号中位于非唤醒源所在的方向的声音信号进行抑制,所述非唤醒源所在的方向为除了所述唤醒源所在的方向之外的其它方向;
所述第一音频装置对所述第三声音信号中位于所述唤醒源所在的方向的声音信号,进行识别,得到语音指令,包括:
所述第一音频装置对经过抑制后的所述第三声音信息中位于所述唤醒源所在的方向的声音信号,进行识别,得到语音指令。
13.一种唤醒识别方法,其特征在于,所述方法适用于第一音频装置,第一音频装置包括第一麦克风阵列,所述方法包括:
所述第一音频装置接收第一声音信号,所述第一声音信号包括唤醒源发出的声音信号;
所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果;
所述第一音频装置接收来自第二音频装置的第二识别结果,所述第二识别结果为所述第二音频装置对接收的第二声音信号进行唤醒识别,得到的识别结果;
所述第一音频装置基于所述第一识别结果和所述第二识别结果,确定是否唤醒所述第一音频装置。
14.如权利要求13所述的方法,其特征在于,所述第一识别结果包括第一概率,所述第一概率为所述第一声音信号包括唤醒信息的概率;所述第二识别结果包括第二概率,所述第二概率为所述第二声音信号包括唤醒信息的概率;
所述第一音频装置基于所述第一识别结果和所述第二识别结果,确定是否唤醒所述第一音频装置,包括:
若所述第一概率大于第一阈值、所述第二概率大于第二阈值;和/或,第一概率和第二概率二者的平均值或加权平均值大于第三阈值,则确定唤醒所述第一音频装置。
15.如权利要求13或14所述的方法,其特征在于,在所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果之前,所述方法还包括:
所述第一音频装置对所述第一声音信号中来自所述第二音频装置的声音信号进行抑制;
所述第一音频装置对所述第一声音信号进行唤醒识别,得到第一识别结果,包括:
所述第一音频装置对抑制后的所述第一声音信号进行唤醒识别,得到第一识别结果。
16.如权利要求15所述的方法,其特征在于,在所述第一音频装置对所述第一声音信号中来自所述第二音频装置的声音信号进行抑制之前,所述方法还包括:所述第一音频装置确定所述第二音频装置和所述唤醒源处于不同的方向。
17.一种音频装置组,其特征在于,包括:第一音频装置和第二音频装置;
第一音频装置包括:处理器;存储器;第一麦克风阵列;其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述第一音频装置执行如权利要求1-16中任意一项所述的方法中由第一音频装置执行的步骤;
第二音频装置包括:处理器;存储器;第二麦克风阵列;其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述第二音频装置执行如权利要求1-16中任意一项所述的方法中由第二音频装置执行的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,当计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-16中任意一项所述的方法。
19.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如上述权利要求1-16中任意一项所述的方法。
CN202011556351.2A 2020-08-31 2020-12-23 一种唤醒识别方法、音频装置以及音频装置组 Pending CN114121024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/114728 WO2022042635A1 (zh) 2020-08-31 2021-08-26 一种唤醒识别方法、音频装置以及音频装置组

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010893958 2020-08-31
CN2020108939583 2020-08-31

Publications (1)

Publication Number Publication Date
CN114121024A true CN114121024A (zh) 2022-03-01

Family

ID=80360525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011556351.2A Pending CN114121024A (zh) 2020-08-31 2020-12-23 一种唤醒识别方法、音频装置以及音频装置组

Country Status (1)

Country Link
CN (1) CN114121024A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273850A (zh) * 2022-09-28 2022-11-01 科大讯飞股份有限公司 一种自主移动设备语音控制方法及系统
CN115294983A (zh) * 2022-09-28 2022-11-04 科大讯飞股份有限公司 一种自主移动设备唤醒方法、系统及基站

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273850A (zh) * 2022-09-28 2022-11-01 科大讯飞股份有限公司 一种自主移动设备语音控制方法及系统
CN115294983A (zh) * 2022-09-28 2022-11-04 科大讯飞股份有限公司 一种自主移动设备唤醒方法、系统及基站

Similar Documents

Publication Publication Date Title
US11289087B2 (en) Context-based device arbitration
US11798547B2 (en) Voice activated device for use with a voice-based digital assistant
CN108351872B (zh) 用于响应用户语音的方法和系统
US11756563B1 (en) Multi-path calculations for device energy levels
US11138977B1 (en) Determining device groups
WO2019104698A1 (zh) 信息处理方法及装置、多媒体设备及存储介质
CN110634507A (zh) 用于语音唤醒的音频的语音分类
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
US10878812B1 (en) Determining devices to respond to user requests
US11258671B1 (en) Functionality management for devices
CN114121024A (zh) 一种唤醒识别方法、音频装置以及音频装置组
CN115775564B (zh) 音频处理方法、装置、存储介质及智能眼镜
WO2023155607A1 (zh) 终端设备和语音唤醒方法
CN114464184B (zh) 语音识别的方法、设备和存储介质
WO2022042635A1 (zh) 一种唤醒识别方法、音频装置以及音频装置组
WO2020051841A1 (en) Human-machine speech interaction apparatus and method of operating the same
WO2019246314A1 (en) Acoustic aware voice user interface
US11887602B1 (en) Audio-based device locationing
WO2022188560A1 (zh) 距离关系确定、设备控制、模型训练的方法及相关装置
CN117809625A (zh) 一种终端设备及双模型校验的唤醒方法
CN116959436A (zh) 一种语音交互方法及电子设备
CN115691479A (zh) 语音检测方法、装置、电子设备及存储介质
CN117174078A (zh) 语音信号的处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination