CN112654960A - 人机语音交互装置及其操作方法 - Google Patents

人机语音交互装置及其操作方法 Download PDF

Info

Publication number
CN112654960A
CN112654960A CN201880096234.7A CN201880096234A CN112654960A CN 112654960 A CN112654960 A CN 112654960A CN 201880096234 A CN201880096234 A CN 201880096234A CN 112654960 A CN112654960 A CN 112654960A
Authority
CN
China
Prior art keywords
audio signal
microphone
facing
speech
cardioid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880096234.7A
Other languages
English (en)
Inventor
冯津伟
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN112654960A publication Critical patent/CN112654960A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones

Abstract

一种装置,包括:面向前的麦克风,所述面向前的麦克风被配置成接收第一音频信号;面向后的麦克风,所述面向后的麦克风与所述面向前的麦克风相邻并被配置成接收第二音频信号;和控制器,所述控制器包括电路系统,所述电路系统被配置成计算所述第一音频信号与所述第二音频信号的能量比并且在所计算的能量比满足门限条件时唤醒所述装置以进行语音处理。

Description

人机语音交互装置及其操作方法
技术领域
与本公开一致的装置和方法通常涉及音响装置,并且更具体地,涉及从用户接收声音并对这些声音做出响应的装置。
背景技术
人机语音交互装置的操作依靠该装置对由人类用户发出的词的响应。常规的人机语音交互装置(例如,用在智能扬声器中)要求用户说出唤醒词。然而,唤醒词系统会给用户带来总是向人机语音交互装置发出唤醒词以在用户希望该装置操作并提供适当的响应之前首先唤醒该装置的负担。由于要求如此发出唤醒词,所以用户难以具有日常的人对人交互的体验。
用于唤醒人机语音交互装置的另一方法是通过检测靠近装置站立的用户的面部来使用面部检测技术。这种方法将允许用户在不用发出唤醒词的情况下唤醒装置。然而,这种方法遭受一些限制,例如,只要装置检测到人的面部,即使该人无意与该装置交互,该装置也总是处于唤醒模式下。
用于唤醒人机语音交互装置的另一方法是使用麦克风的阵列,例如八个麦克风的阵列,以计算出与该装置交互的用户的距离和摇摄角。仅被检测到为在前近场中的语音可以用于唤醒装置。然而,这种方法也遭受限制,例如,当用户使他的/她的面部从装置移开并与他的/她的朋友交谈时,装置会对非计划中的情形做出响应。此外,为一个用户操作八麦克风阵列会增加计算成本和材料成本两者。
发明内容
根据本公开的一些实施例,提供了一种装置,所述装置包括:面向前的麦克风,所述面向前的麦克风被配置成接收第一音频信号;面向后的麦克风,所述面向后的麦克风与所述面向前的麦克风相邻并被配置成接收第二音频信号;和控制器,所述控制器包括被配置成计算所述第一音频信号与所述第二音频信号的能量比并且在所计算的能量比满足门限条件时对用户做出响应的电路系统。在一些实施例中,所述装置可以在所计算的能量比满足所述门限条件时简单地唤醒以进行语音处理,而不用与所述用户交互。
在所述装置中,所述面向前的麦克风和所述面向后的麦克风中的至少一个可以为心形麦克风或全向麦克风或将声能转换成电信号的任何其他换能器。所述面向后的麦克风的前面可以被定位为与所述面向前的麦克风的后面相邻。
在所述装置中,所述控制器可以还被配置成:分别对所述第一音频信号和所述第二音频信号执行傅立叶变换;分别确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音信号功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音信号功率;分别随着时间的推移而累积所述第一信号功率和所述第二信号功率;分别对所述第一语音信号功率和所述第二语音信号功率执行频率加权;并且分别通过跨所述多个频率区间将所述加权的第一语音信号功率和所述加权的第二语音信号功率相加来计算出所述第一音频信号的总音频能量和所述第二音频信号的总音频能量。
在所述装置中,所述面向前的麦克风可以包括多个面向前的心形麦克风;而所述面向后的麦克风可以包括在水平方向上或在垂直方向上与所述多个面向前的心形麦克风交替地布置的多个面向后的心形麦克风。所述多个面向前的心形麦克风和所述多个面向后的心形麦克风可以被交替地布置以形成矩阵阵列。
所述装置还可以包括被配置成通过显示消息来对所述用户做出响应的显示器。所述装置还可以包括被配置成分配由所述用户购买的物品的狭槽。
根据本公开的一些实施例,提供了一种操作装置的方法。所述方法包括:通过所述装置的面向前的麦克风来获得第一音频信号并通过所述装置的面向后的麦克风来获得第二音频信号;计算所述第一音频信号与所述第二音频信号的能量比;以及当所计算的能量比满足门限条件时对用户做出响应。满足所述门限条件的示例是所计算的能量比大于预定门限值。在一些实施例中,所述对用户做出响应可以为简单地唤醒所述装置以进行语音处理。
所述方法还可以包括:分别对所述第一音频信号和所述第二音频信号执行傅立叶变换;分别确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音信号功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音信号功率;分别随着时间的推移而累积所述第一语音信号功率和所述第二语音信号功率;分别对所述第一语音信号功率和所述第二语音信号功率执行频率加权;以及分别跨所述多个频率区间将所述加权的第一语音信号功率和所述加权的第二语音信号功率相加以获得第一音频能量和第二音频能量。
根据本公开的一些实施例,提供了一种操作装置的方法。所述方法包括:通过所述装置的面向前的麦克风来接收第一音频信号并通过所述装置的面向后的麦克风来接收第二音频信号;对所述第一音频信号和所述第二音频信号执行傅立叶变换;确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音功率;比较所述多个频率区间中的每个频率区间中的所述第一语音功率和所述第二语音功率并且确定所述多个频率区间中的每个频率区间中的优势麦克风;对所述第一音频信号的优势频率区间的第一数量和所述第二音频信号的优势频率区间的第二数量进行计数;以及将所述第一数量与所述第二数量进行比较并且在优势频率区间的所述第一数量显著地大于优势频率区间的所述第二数量时操作所述装置以对所述用户做出响应。在一些实施例中,所述对用户做出响应可以为简单地唤醒所述装置以进行语音处理。
下面的主题通过详细地说明的各种具体示例性实施例来教导,并且被图示在所附入的附图中。
附图说明
图1是图示了与本公开的一些实施例一致的示例性人机语音交互装置和与该人机语音交互装置交互的用户的示意图。
图2是与本公开的一些实施例一致的图1的俯视图。
图3是与本公开的一些实施例一致的示例性人机语音交互装置和与该人机语音交互装置交互的用户的俯视图,示出了心形麦克风的极性响应。
图4图示了与本公开的一些实施例一致的图3中的心形麦克风的组合的能量比(ER)的示例。
图5、图6、图7和图8图示了与本公开的一些实施例一致的用户相对于示例性人机语音交互装置的不同定向。
图9示出了与本公开的一些实施例一致的在不同的距离L(用户与人机语音交互装置的前面板之间的距离)和角度θ(用户的声音方向与人机语音交互装置的前面板的垂线之间的角度)下测量的能量比ER。
图10图示了与本公开的一些实施例一致的人机语音交互装置的心形麦克风的示例性水平阵列。
图11图示了与本公开的一些实施例一致的人机语音交互装置的心形麦克风的示例性垂直阵列。
图12图示了与本公开的一些实施例一致的人机语音交互装置的心形麦克风的示例性矩阵阵列。
图13是指示了与本公开的一些实施例一致的操作人机语音交互装置的示例性方法的流程图。
图14是指示了与本公开的一些实施例一致的操作人机语音交互装置的另一示例性方法的流程图。
图15A图示了面向前的心形麦克风的示例性压力-时间图。
图15B图示了与本公开的一些实施例一致的面向后的心形麦克风的示例性压力-时间图。
图16A图示了根据本公开的一些实施例的具有电路板和麦克风系统的示例性人机语音交互装置的原型。
图16B图示了与本公开的一些实施例一致的图16A的示例性人机语音交互装置中的电路图。
图17图示了与本公开的一些实施例一致的人机语音交互装置中的示例性电路图。
具体实施方式
现在将详细地参考示例性实施例,其示例被图示在附图中。以下描述参考附图,其中除非另外表示,否则不同附图中的相同数字表示相同或类似的元件。在示例性实施例的以下描述中阐述的实施方式不表示与本发明一致的所有实施方式。替代地,它们仅仅是与如所附权利要求中所叙述的和本发明有关的各方面一致的装置和方法的示例。例如,尽管在利用心形麦克风的上下文下描述一些实施例,但是本公开不受此限制。可类似地应用其他类型的麦克风。此外,可使用将声能转换成电信号的其他换能器。
现在参考图1,示意图图示了与本公开的示例性实施例一致的示例性人机语音交互装置和与该人机语音交互装置交互的用户,同时图示2图示了图1的俯视图。在一些实施例中,人机语音交互装置可以简单地接收用户的语音并相应地处理该语音,而不用与用户交互。如图1和图2中所示,用户180站立在人机语音交互装置100前面。用户的面部与人机语音交互装置100的前面板之间的距离L可以在例如为0.5m至3m的范围内,但是该距离不受此限制。通过调整人机语音交互装置100的电路系统和灵敏度,距离L可以在任何范围内。用户180通过对装置讲话来向人机语音交互装置100提供声波190。声波190朝向人机语音交互装置100的前面板的左开口120和右开口130传播。左开口120的中心与右开口130的中心之间的分隔距离可以在例如3mm和10mm的范围内,但是该分离距离不受此限制。
开口120和130包括安装在人机语音交互装置100的前面板上的麦克风系统110。麦克风系统110包括具有后部200和面向用户180的两个声音接收部140的面向前的单向麦克风。麦克风系统110还包括具有两个声音接收部150和210的面向后的单向麦克风,其中声音接收部210面向用户180。应注意,开口120和130应该做得足够大,以致声波可进入声音接收部200和210。麦克风系统100的后部200和210包括电路并连接到控制器250以用于处理由麦克风系统110接收到的音频信号。
在本公开的一些实施例中,人机语音交互装置100还包括显示器160。显示器160可以为液晶显示器、发光二极管阵列显示器、有机发光二极管显示器、等离子显示器、阴极射线管显示器、全息显示器、激光等离子体显示器和它们的任何组合。人机语音交互装置100还可以包括被配置成分配由用户180购买的物品例如由用户180通过对人机语音交互装置100讲话而订购的火车票的狭槽170。
显示器160用来向用户180提供指令以便使用人机语音交互装置100。指令可以为显示器160上显示的消息。例如,消息可以为告诉用户180站立在涂在地板上的黄线内的词或指示用户180直接对人机语音交互装置100讲话而不允许任何障碍物定位在用户180的嘴与人机语音交互装置100之间的词。消息也可以包括例如“your voice message isreceived,we are processing your message(接收到你的话音消息,我们正在处理你的消息)”或“your ordered ticket is ready,and please pick it up from the slot(你订购的票准备好,请从狭槽中拾取它)”。
现在参考图3,与本公开的示例性实施例一致的人机语音交互装置和与该人机语音交互装置交互的用户的俯视图,示出了心形麦克风的极性响应。单向麦克风可以包括心形麦克风、亚心形麦克风、超心形麦克风和过心形麦克风。图3示出了麦克风系统110的麦克风是具有心形拾音图案的心形麦克风。具有面向用户180的前声音接收部140的面向前的麦克风具有包括前部220和后部230的图案,而具有面向用户180的后声音接收部210的面向后的麦克风具有包括前部240和后部250的图案。当用户180朝向麦克风系统110讲话并发送声波190时,控制器250计算总能量比ER,该总能量比ER可以如图4中所图示的那样沿着时间轴线呈现峰的形式。这是因为当语音不活动时,两个麦克风都接收相同的背景噪声(因此能量比ER为约1.0)。
在一些实施例中,麦克风系统110的麦克风可以为包括两个全向麦克风(未示出)的端射阵列。可以通过电路系统和适当的数量信号处理算法(未示出)来修改两个全向麦克风以形成两个虚拟心形麦克风,其中一个面向前而另一个面向后。此外,麦克风系统110的麦克风可以为将声能转换成电信号的其他类型的换能器(未示出)。
现在参考图5至图8,图5至图8图示了与本公开的示例性实施例一致的用户相对于人机语音交互装置的不同定向。考虑麦克风系统110在用户180的不同定向下的灵敏度,图5-8示出了指示用户180在人机语音交互装置100前面的不同方向下讲话的情形的俯视图。图5示出了用户180在与人机语音交互装置100的前面板的垂线具有任意角度θ的方向上讲话的情形。图6示出了用户180在与人机语音交互装置100的前面板的垂线平行即θ=0°的方向上说话的情形。图7示出了用户180在与人机语音交互装置100的前面板的垂线成90°角即θ=90°时讲话的情形。图8示出了由站立在用户180附近并在不切断人机语音交互装置100的麦克风系统的方向上讲话的人提供的声音的情形。
现在参考图9,图9示出了与本公开的一些实施例一致的在不同的距离L(用户与人机语音交互装置的前面板之间的距离)和角度θ(用户的声音方向与人机语音交互装置的前面板的垂线之间的角度)下测量的能量比ER值。如图9的表中所示,当用户180与人机语音交互装置100之间的分隔距离L为0.5m并且由用户180提供的声波的方向与人机语音交互装置100的前面板的垂线之间的角度θ为0°(例如,图6)时,所测量到的ER值为10.91。当将距离L增加到2m时,所测量到的ER值下降到3.63。当将距离L进一步增加到3m时,所测量到的ER值进一步减小到2.23。在距离L为0.5m且角度θ为90°(例如,图7)时,所测量到的ER值为4.01。当将距离L增加到2.0m时,所测量到的ER值急剧降低到1.89。当将距离L进一步增加到3.0m时,所测量到的ER值进一步降低到1.77。
当距离L为0.5m但是从用户180的一侧提供声音(例如,图8)时,所测量到的ER值为1.07,类似于背景信号的情况。因此,只要在用户180周围的人侧身讲话,麦克风系统110就可将声波辨识为背景语音,该背景语音比面向人机语音交互装置100的前面板的用户180的10.91ER值低得多。以这种方式,本公开的人机语音交互装置100仅对用户180而不是在用户180周围侧身交谈的人的话音做出响应。在一些实施例中,对用户的话音做出响应可以为简单地唤醒人机语音交互装置以进行语音处理,而不用与用户交互。
现在参考图10,图10图示了与本公开的一些示例性实施例一致的人机语音交互装置的心形麦克风的水平阵列。如图10中所示,麦克风系统的线性阵列110(C)使具有面向用户180的后声音接收部210的面向后的麦克风中的每一个与具有面向用户180的前声音接收部140的面向前的麦克风中的每一个交替地布置。以这种方式,不需要与人机语音交互装置100交互的用户180站立在人机语音交互装置100的前面板的特定区域(例如,中央区域)前面。用户180可站立在人机语音交互装置100的前面板前面的任何位置处。通过在所有麦克风对当中找到最大能量比ER来计算能量比。在本公开的一些示例性实施例中,麦克风系统的线性阵列110(C)可以覆盖人机语音交互装置100的前面板的整个水平宽度或水平宽度的一部分。
现在参考图11,图11图示了与本公开的一些示例性实施例一致的人机语音交互装置的心形麦克风的垂直阵列。如图11中所示,麦克风系统的垂直线性阵列110(D)使具有面向用户180的后部210的面向后的麦克风中的每一个与具有面向用户180的前声音接收部140的面向前的麦克风中的每一个交替地布置。以这种方式,与人机语音交互装置100交互的用户180不限于具体身高。用户180可以为身高不到1m的孩子至身高为2m的成年人。在本公开的一些实施例中,麦克风系统的垂直线性阵列110(D)可以覆盖人机语音交互装置100的前面板的整个身高或身高的一部分。例如,通过在所有麦克风对当中找到最大ER来计算能量比ER。
现在参考图12,图12图示了与本公开的一些示例性实施例一致的人机语音交互装置的心形麦克风的矩阵阵列。如图12中所示的示例性矩阵将图10中的水平线性阵列和图11中的垂直线性阵列扩展成麦克风系统的矩阵110(F)。在本公开的一些实施例中,麦克风系统的矩阵110(F)可以覆盖人机语音交互装置100的整个前面板或前面板的一部分,使得具有不同身高的用户可以站立在矩阵阵列前面的任何位置处。例如,通过在所有麦克风对当中找到最大ER来计算能量比ER。
现在参考图13,图13图示了与本公开的一些示例性实施例一致的指示操作人机语音交互装置的方法的流程图。在图13中,步骤S1501至S1505描述了操作面向前的麦克风的步骤。在步骤S1501中,由面向前的麦克风接收音频帧。在步骤S1502中,对所接收到的音频帧执行短时傅立叶变换。在步骤S1503中,在每个频率区间中估计语音信号功率。在步骤S1504中,在一段时间内累积信号功率并对其进行频率加权。在步骤S1505中,例如,通过跨所有频率区间对频率加权的信号功率求和来获得音频能量。步骤S1506至S1510描述了操作面向后的麦克风的步骤。在步骤S1506中,由面向后的麦克风接收音频帧。在步骤S1507中,对所接收到的音频帧执行短时傅立叶变换。在步骤S1508中,在每个频率区间中估计语音信号功率。在步骤S1509中,随着时间的推移而累积信号功率并对其进行频率加权。在步骤S1510中,例如,通过跨所有频率区间对频率加权的信号功率求和来获得音频能量。在步骤S1511中,包括电路系统的控制器使用从面向前的麦克风获得的音频能量(来自步骤S1505)和从面向后的麦克风获得的音频能量(来自步骤S1510)来计算能量比ER。在步骤S1512中,控制器确定能量比ER(来自步骤S1511)是否满足门限条件,在这种情况下能量比ER大于预定门限值。如果能量比ER(来自步骤S1511)满足门限条件(例如,能量比ER大于预定门限值),则在步骤S1514中唤醒并操作人机语音交互装置的自动语音辨识(ASR)。如果能量比ER(来自步骤S1511)不满足门限条件(例如,能量比ER不大于预定门限值),则在步骤S1513中不唤醒且不操作人机语音交互装置的自动语音辨识(ASR)。
现在参考图14,图14示出了指示与本公开的一些示例性实施例一致的操作人机语音交互装置的另一方法的流程图。在图14中,步骤S1601至S1603描述了操作面向前的麦克风的步骤。在步骤S1601中,由面向前的麦克风接收音频帧。在步骤S1602中,对所接收到的音频帧执行短时傅立叶变换。在步骤S1603中,在多个频率区间中的每个频率区间处执行语音功率估计。步骤S1605至S1607描述了操作面向后的麦克风的步骤。在步骤S1605中,由面向后的麦克风接收音频帧。在步骤S1606中,对所接收到的音频帧执行短时傅立叶变换。在步骤S1607中,在多个频率区间中的每个频率区间处执行语音功率估计。在步骤S1608中,比较两个信号以确定哪一个麦克风在多个频率区间中的每个频率区间处具有优势语音功率。在步骤S1609中,包括电路系统的控制器对面向前的麦克风中的优势区间的数量N(来自步骤S1608)和面向后的麦克风中的优势区间的数量M(来自步骤S1608)进行计数,并且对N和M进行比较。在步骤S1610中,基于对N和M的比较,控制器确定是否满足门限条件。例如,当N显著地大于M即N>>M时可以满足门限条件。如果N显著地大于M,则在步骤S1612中唤醒并操作人机语音交互装置的自动语音辨识。如果N不显著地大于M,则在步骤S1614中不唤醒且不操作人机语音交互装置的自动语音辨识(ASR)。
现在参考与本公开的一些示例性实施例一致的图15A和图15B,图15A图示了面向前的心形麦克风的时域信号,而图15B图示了当讲话者在面向前的心形麦克风前面讲话时面向后的心形麦克风的时域信号。可以看到,由面向前的麦克风接收到的语音信号功率显著大于由面向后的麦克风接收到的语音信号功率。
现在参考图16A,图16A图示了具有电路板1900以及具有面向前的麦克风1710和面向后的麦克风1720的麦克风系统的人机语音交互装置的原型。图16B图示了人机语音交互装置的示例性电路图。用户180发送朝向面向前的麦克风1710和面向后的麦克风1720传播的声波190。面向前的麦克风1710将声波变成通过放大器1730、可变电阻器1750、滤波器1770、然后是处理器1790和控制器1800的电信号。面向后的麦克风1720将声波变成通过放大器1740、可变电阻器1760、滤波器1780、然后到处理器1790和控制器1800的电信号。
现在参考图17,图17图示了与本公开的一些实施例一致的人机语音交互装置中的电路图。用户180发送朝向面向前的麦克风1710和面向后的麦克风1720传播的声波190。面向前的麦克风1710将声波变成朝向放大器1730、可变电阻器1750、滤波器1770、处理器1790、控制器1800、然后是用户接口1810发送的电信号,该用户接口1810用来基于人机语音交互装置对用户180的响应来调整人机语音交互装置的性能。面向后的麦克风1720将声波变成朝向放大器1740、可变电阻器1760、滤波器1780、处理器1790、控制器1800、然后是用户接口1810发送的电信号,该用户接口1810用来基于人机语音交互装置对用户180的响应来调整人机语音交互装置的性能。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以为非暂时性计算机可读存储介质。非暂时性计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM或任何其他闪速存储器、NVRAM、高速缓存、寄存器、任何其他存储器芯片或盒以及这些的联网版本。计算机可读存储介质可以为例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备,或上述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括下列的:具有一根或多根电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM、EEPROM或闪速存储器)、光纤、便携式紧致盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或上述的任何合适的组合。在本文档的上下文中,计算机可读存储介质可以为任何有形介质,该任何有形介质可以包含或存储程序以供由指令执行系统、装置或设备使用或连同其一起使用。
可以使用包括但不限于下列的任何适当的介质来发送在计算机可读介质上体现的程序代码:无线、有线线路、光纤电缆、RF、IR等,或上述的任何合适的组合。
用于执行示例实施例的操作的计算机程序代码可以用一种或多种编程语言的任何组合加以编写,这些编程语言包括诸如Java、Smalltalk、C++的面向对象编程语言以及诸如“C”编程语言或类似编程语言的常规过程编程语言。程序代码可以完全在用户的计算机上、部分地在用户的计算机上、作为独立软件包、部分地在用户的计算机上并部分地在远程计算机上或完全在远程计算机或服务器上执行。在后者情况下,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户计算机,或者可以做出到外部计算机的连接(例如,使用因特网服务提供商通过因特网)。
在下面参考方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述示例实施例。应理解,可通过计算机程序指令来实现流程图图示和/或框图的每个框以及流程图图示和/或框图中的各框的组合。可以将这些计算机程序指令提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在一个或多个流程图和/或框图框中指定的功能/行为。
也可以将这些计算机程序指令存储在计算机可读介质中,这些计算机程序指令可指导计算机、其他可编程数据处理装置或其他设备的硬件处理器核心以特定方式起作用,使得存储在计算机可读介质中的指令形成包括实现在一个或多个流程图和/或框图框中指定的功能/行为的指令的制品。
也可以将计算机程序指令加载到计算机、其他可编程数据处理装置或其他设备上,以使得在该计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,使得在该计算机或其他可编程装置上执行的指令提供用于实现在一个或多个流程图和/或框图框中指定的功能/行为的过程。
各图中的流程图和框图图示了根据各种实施例的系统、方法和计算机程序产品的可能的实施方式的架构、功能性和操作的示例。在这方面,流程图或框图中的每个框可以表示代码的模块、段或部分,其包括用于实现所指定的逻辑功能的一个或多个可执行指令。还应该注意,在一些替代实施方式中,框中指出的功能可以不按图中指出的次序发生。例如,取决于所涉及的功能性,实际上可以基本上同时地执行相继示出的两个框,或者有时可以以相反的次序执行这些框。也应注意,框图和/或流程图的每个框以及框图和/或流程图中的各框的组合可由执行所指定的功能或行为的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。
应理解,所描述的实施例不是互斥的,并且连同一个示例实施例一起描述的元件、组件、材料或步骤可以以合适的方式与其他实施例组合,或者从其他实施例中消除,以实现期望的设计目标。
在本文中对“一些实施例”或“一些示例性实施例”的引用是指连同该实施例一起描述的特定特征、结构或特性可被包括在至少一个实施例中。短语“一个实施例”、“一些实施例”或“一些示例性实施例”在说明书中的各个地方中的出现不一定全都参考同一实施例,也不是必定与其他实施例互斥的单独或替代的实施例。
应该理解,不一定要求以所描述的次序执行本文阐述的示例方法的步骤,并且此类方法的步骤的次序应该被理解为仅仅是示例。同样地,可以在此类方法中包括附加步骤,并且可以在与各种实施例一致的方法中省略或组合某些步骤。
如本申请中所使用的,词“示例性”在本文中用于意指用作示例、实例或图示。在本文中被描述为“示例性”的任何方面或设计不一定被解释为优于其他方面或设计为优选的或有利的。相反,该词的使用旨在以具体方式呈现构思。
附加地,术语“或”旨在意指包括性“或”而不是排他性“或”。也就是说,除非另外指定或者从上下文中清楚,否则“X采用A或B”旨在意指自然包括性置换中的任一个。也就是说,如果X采用A;X采用B;或X采用A和B两者,则在上述实例中的任一个下满足“X采用A或B”。另外,除非另外指定或者从上下文中清楚为针对单数形式,如本申请和所附权利要求中所使用的冠词“一”和“一个”通常应该被解释为意指“一个或多个”。
除非另外显式地陈述,否则每个数值和范围应该被解释为近似值,如同词“约”或“大约”在该值或范围之前一样。
在权利要求中使用图编号或图参考标记旨在标识所要求保护的主题的一个或多个可能的实施例以促进权利要求的解释。这种使用不应被解释为必定将那些权利要求的范围限于对应图中示出的实施例。
尽管按对应标记以特定顺序叙述了以下方法权利要求中的要素(若有的话),但是除非权利要求书叙述另外暗含用于实现那些要素中的一些或全部的特定顺序,否则那些要素不一定旨在限于被以该特定顺序实现。
应进一步理解,在不脱离如以下权利要求中所表达的范围的情况下,本领域的技术人员可以在已被描述和图示以便说明描述的实施例的性质的各部分的细节、材料和布置方面做出各种变化。

Claims (34)

1.一种装置,包括:
面向前的麦克风,所述面向前的麦克风被配置成接收第一音频信号;
面向后的麦克风,所述面向后的麦克风与所述面向前的麦克风相邻并被配置成接收第二音频信号;和
控制器,所述控制器包括电路系统,所述电路系统被配置成计算所述第一音频信号与所述第二音频信号的能量比,并且被配置成在所计算的能量比满足门限条件时唤醒以进行语音处理。
2.根据权利要求1所述的装置,其中所述满足门限条件包括所计算的能量比大于预定门限值。
3.根据权利要求1-2中的任一项所述的装置,其中所述面向前的麦克风和所述面向后的麦克风是心形麦克风。
4.根据权利要求1-2中的任一项所述的装置,其中所述面向前的麦克风和所述面向后的麦克风中的至少一个是全向麦克风。
5.根据权利要求1-3中的任一项所述的装置,其中所述面向后的麦克风的前部与所述面向前的麦克风的后部相邻。
6.根据权利要求1-5中的任一项所述的装置,其中所述控制器还被配置成分别对所述第一音频信号和所述第二音频信号执行傅立叶变换。
7.根据权利要求6所述的装置,其中所述控制器还被配置成分别确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音信号功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音信号功率。
8.根据权利要求7所述的装置,其中所述控制器还被配置成分别执行所述第一语音信号功率和所述第二语音信号功率的累积。
9.根据权利要求8所述的装置,其中所述控制器还被配置成分别对所述第一语音信号功率和所述第二语音信号功率执行频率加权。
10.根据权利要求9所述的装置,其中所述控制器还被配置成分别通过跨所述多个频率区间将所述加权的第一语音信号功率和所述加权的第二语音信号功率相加来确定所述第一音频信号的总音频能量和所述第二音频信号的总音频能量。
11.根据权利要求3所述的装置,其中:
所述面向前的心形麦克风包括多个面向前的心形麦克风;并且
所述面向后的心形麦克风包括在水平方向上与所述多个面向前的心形麦克风交替地布置的多个面向后的心形麦克风。
12.根据权利要求3所述的装置,其中:
所述面向前的心形麦克风包括多个面向前的心形麦克风;并且
所述面向后的心形麦克风包括在垂直方向上与所述多个面向前的心形麦克风交替地布置的多个面向后的心形麦克风。
13.根据权利要求3所述的装置,其中:
所述面向前的心形麦克风包括多个面向前的心形麦克风;并且
所述面向后的心形麦克风包括与所述多个面向前的心形麦克风交替地布置以形成矩阵阵列的多个面向后的心形麦克风。
14.根据权利要求1至13中的任一项所述的装置,还包括被配置成通过显示消息来对所述用户做出响应的显示器。
15.根据权利要求1至13中的任一项所述的装置,还包括被配置成分配由所述用户购买的物品的狭槽。
16.一种装置,包括:
面向前的麦克风,所述面向前的麦克风被配置成接收第一音频信号;
面向后的麦克风,所述面向后的麦克风与所述面向前的麦克风相邻并被配置成接收第二音频信号;和
控制器,所述控制器包括被配置成进行以下操作的电路系统:
确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音信号功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音信号功率;
比较每个频率区间中的所述第一语音信号功率和所述第二语音信号功率并且确定所述多个频率区间中的每个频率区间中的优势麦克风;
确定所述面向前的麦克风中的优势频率区间的第一数量和所述面向后的麦克风中的优势频率区域的第二数量;并且
比较所述第一数量和所述第二数量并且在对优势频率区间的第一数量和第二数量的比较满足门限条件时唤醒以进行语音处理。
17.根据权利要求16所述的装置,其中所述包括电路系统的控制器还被配置成对所述第一音频信号和所述第二音频信号执行傅立叶变换。
18.根据权利要求16至17中的任一项所述的装置,其中所述满足所述门限条件包括优势频率区间的第一数量和第二数量中的计算差异大于预定门限值。
19.根据权利要求16至18中的任一项所述的装置,其中所述面向前的麦克风和所述面向后的麦克风中的至少一个是心形麦克风。
20.根据权利要求16至18中的任一项所述的装置,其中所述面向前的麦克风和所述面向后的麦克风中的至少一个是全向麦克风。
21.根据权利要求16-19中的任一项所述的装置,其中所述面向后的麦克风的前部与所述面向前的麦克风的后部相邻。
22.一种操作装置的方法,包括:
由所述装置的面向前的麦克风获得第一音频信号并由所述装置的面向后的麦克风获得第二音频信号;
计算所述第一音频信号与所述第二音频信号的能量比;以及
当所计算的能量比满足门限条件时唤醒以进行语音处理。
23.根据权利要求22所述的方法,其中所述满足门限条件包括所计算的能量比大于预定门限值。
24.根据权利要求22至23中的任一项所述的方法,其中所述面向前的麦克风和所述面向后的麦克风中的至少一个是心形麦克风。
25.根据权利要求22至24中的任一项所述的方法,还包括:
分别对所述第一音频信号和所述第二音频信号执行傅立叶变换;
分别确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音信号功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音信号功率;
分别随着时间的推移而累积所述第一语音信号功率和所述第二语音信号功率;
分别对所述第一语音信号功率和所述第二语音信号功率执行频率加权;以及
分别跨所述多个频率区间将所述加权的第一语音信号功率和所述加权的第二语音信号功率相加以获得第一音频能量和第二音频能量。
26.一种操作装置的方法,包括:
由所述装置的面向前的麦克风接收第一音频信号并由所述装置的面向后的麦克风接收第二音频信号;
确定所述第一音频信号的优势频率区间的第一数量和所述第二音频信号的优势频率区间的第二数量;
比较所述第一音频信号的优势频率区间的第一数量和所述第二音频信号的优势频率区间的第二数量;以及
当对优势频率区间的第一数量和第二数量的比较满足门限条件时唤醒以进行语音处理。
27.根据权利要求26所述的方法,还包括:
对所述第一音频信号和所述第二音频信号执行傅立叶变换;
确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音功率;以及
比较所述多个频率区间中的每个频率区间中的所述第一语音功率和所述第二语音功率并且确定所述多个频率区间中的每个频率区间中的优势麦克风。
28.根据权利要求26-27中的任一项所述的方法,其中所述满足门限条件包括优势频率区间的第一数量和第二数量中的计算差异大于预定门限值。
29.根据权利要求26-28中的任一项所述的方法,所述面向前的麦克风和所述面向后的麦克风中的至少一个是心形麦克风。
30.根据权利要求26-29中的任一项所述的方法,其中所述唤醒以进行语音处理还包括当时域的数量中的计算差异大于预定门限值时向用户显示消息。
31.根据权利要求26至30中的任一项所述的方法,其中所述唤醒以进行语音处理还包括当时域的数量中的计算差异大于预定门限值时向用户输出物品。
32.一种存储程序的非暂时性计算机可读存储介质,所述程序使计算机执行:
由装置的面向前的麦克风获得第一音频信号并由所述装置的面向后的麦克风获得第二音频信号;
计算所述第一音频信号与所述第二音频信号的能量比;以及
当所计算的能量比满足门限条件时唤醒以进行语音处理。
33.一种存储程序的非暂时性计算机可读存储介质,所述程序使计算机执行:
由装置的面向前的麦克风接收第一音频信号并由所述装置的面向后的麦克风接收第二音频信号;
确定所述第一音频信号的优势频率区间的第一数量和所述第二音频信号的优势频率区间的第二数量;
计算优势频率区间的第一数量和第二数量之间的差异;以及
当优势频率区间的数量中的计算差异满足门限条件时唤醒以进行语音处理。
34.根据权利要求33所述的存储程序的非暂时性计算机可读存储介质,其中所述程序还使所述计算机执行:
对所述第一音频信号和所述第二音频信号执行傅立叶变换;
确定所述第一音频信号在多个频率区间中的每个频率区间中的第一语音功率和所述第二音频信号在所述多个频率区间中的每个频率区间中的第二语音功率;以及
比较所述多个频率区间中的每个频率区间中的所述第一语音功率和所述第二语音功率并且确定所述多个频率区间中的每个频率区间中的优势麦克风。
CN201880096234.7A 2018-09-13 2018-09-13 人机语音交互装置及其操作方法 Pending CN112654960A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/105518 WO2020051841A1 (en) 2018-09-13 2018-09-13 Human-machine speech interaction apparatus and method of operating the same

Publications (1)

Publication Number Publication Date
CN112654960A true CN112654960A (zh) 2021-04-13

Family

ID=69776905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880096234.7A Pending CN112654960A (zh) 2018-09-13 2018-09-13 人机语音交互装置及其操作方法

Country Status (3)

Country Link
JP (1) JP2021536692A (zh)
CN (1) CN112654960A (zh)
WO (1) WO2020051841A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571053A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 语音唤醒方法和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110164761A1 (en) * 2008-08-29 2011-07-07 Mccowan Iain Alexander Microphone array system and method for sound acquisition
CN106405499A (zh) * 2016-09-08 2017-02-15 南京阿凡达机器人科技有限公司 一种机器人定位声源的方法
CN107408394A (zh) * 2014-11-12 2017-11-28 美国思睿逻辑有限公司 确定在主信道与参考信道之间的噪声功率级差和声音功率级差
CN107577449A (zh) * 2017-09-04 2018-01-12 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质
CN108073381A (zh) * 2016-11-15 2018-05-25 腾讯科技(深圳)有限公司 一种对象控制方法、装置及终端设备
CN108352159A (zh) * 2015-11-02 2018-07-31 三星电子株式会社 用于识别语音的电子设备和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110058683A1 (en) * 2009-09-04 2011-03-10 Glenn Kosteva Method & apparatus for selecting a microphone in a microphone array
CN102254563A (zh) * 2010-05-19 2011-11-23 上海聪维声学技术有限公司 用于双麦克风数字助听器的风噪声抑制方法
CN102969003A (zh) * 2012-11-15 2013-03-13 东莞宇龙通信科技有限公司 摄像声音提取方法及装置
CN106653044B (zh) * 2017-02-28 2023-08-15 浙江诺尔康神经电子科技股份有限公司 追踪噪声源和目标声源的双麦克风降噪系统和方法
CN107274907A (zh) * 2017-07-03 2017-10-20 北京小鱼在家科技有限公司 双麦克风设备上实现指向性拾音的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110164761A1 (en) * 2008-08-29 2011-07-07 Mccowan Iain Alexander Microphone array system and method for sound acquisition
CN107408394A (zh) * 2014-11-12 2017-11-28 美国思睿逻辑有限公司 确定在主信道与参考信道之间的噪声功率级差和声音功率级差
CN108352159A (zh) * 2015-11-02 2018-07-31 三星电子株式会社 用于识别语音的电子设备和方法
CN106405499A (zh) * 2016-09-08 2017-02-15 南京阿凡达机器人科技有限公司 一种机器人定位声源的方法
CN108073381A (zh) * 2016-11-15 2018-05-25 腾讯科技(深圳)有限公司 一种对象控制方法、装置及终端设备
CN107577449A (zh) * 2017-09-04 2018-01-12 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IAIN MCCOWAN ET AL.: "The Delta-Phase Spectrum With Application to Voice Activity Detection and Speaker Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, no. 7, 30 September 2011 (2011-09-30), pages 2026 - 2038, XP011329902, DOI: 10.1109/TASL.2011.2109379 *
姜楠: "手机语音识别系统中语音活动检测算法研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, vol. 2015, no. 06, 15 June 2015 (2015-06-15), pages 136 - 52 *

Also Published As

Publication number Publication date
JP2021536692A (ja) 2021-12-27
WO2020051841A1 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
US11922095B2 (en) Device selection for providing a response
US11023755B2 (en) Detection of liveness
US11017252B2 (en) Detection of liveness
US20210027791A1 (en) Detection of liveness
CN110268470B (zh) 音频设备滤波器修改
CN113056925B (zh) 声源位置检测的方法和装置
CN103443649B (zh) 用于使用可听声音和超声进行源定位的系统、方法、设备和计算机可读媒体
CN105556592B (zh) 检测自我生成的唤醒声调
US20180174574A1 (en) Methods and systems for reducing false alarms in keyword detection
US20220122592A1 (en) Energy efficient custom deep learning circuits for always-on embedded applications
US20220335937A1 (en) Acoustic zoning with distributed microphones
US20230037824A1 (en) Methods for reducing error in environmental noise compensation systems
CN112654960A (zh) 人机语音交互装置及其操作方法
CN114121024A (zh) 一种唤醒识别方法、音频装置以及音频装置组
Hummes et al. Robust acoustic speaker localization with distributed microphones
CN114464184B (zh) 语音识别的方法、设备和存储介质
CN114175145A (zh) 多模态智能音频设备系统注意力表达
WO2022068608A1 (zh) 信号处理的方法和电子设备
CN110691303B (zh) 可穿戴音箱及其控制方法
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
CN110839196A (zh) 一种电子设备及其播放控制方法
Yoneoka et al. Detecting Surrounding Users by Reverberation Analysis with a Smart Speaker and Microphone Array
CN113470634A (zh) 语音交互设备的控制方法、服务器及语音交互设备
CN114207712A (zh) 多设备唤醒词检测
Ma et al. Incorporating localisation cues in a fragment decoding framework for distant binaural speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination