CN111862964B - 语音识别设备及其唤醒响应方法、计算机存储介质 - Google Patents
语音识别设备及其唤醒响应方法、计算机存储介质 Download PDFInfo
- Publication number
- CN111862964B CN111862964B CN201910343044.7A CN201910343044A CN111862964B CN 111862964 B CN111862964 B CN 111862964B CN 201910343044 A CN201910343044 A CN 201910343044A CN 111862964 B CN111862964 B CN 111862964B
- Authority
- CN
- China
- Prior art keywords
- distance information
- voice recognition
- wake
- voice
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000004044 response Effects 0.000 title claims abstract description 74
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音识别设备及其唤醒响应方法,其中,多个语音识别设备构成区域网络,多个语音识别设备分为一个中枢设备和至少一个非中枢设备;唤醒响应方法包括:中枢设备分析采集的语音信号,以获得中枢设备的距离信息;中枢设备的距离信息表示中枢设备与语音信号的信号源的距离;接收非中枢设备的距离信息,非中枢设备的距离信息由非中枢设备分析采集的语音信号而获得,表示非中枢设备与信号源的距离;比较中枢设备的距离信息和非中枢设备的距离信息;确定待响应语音识别设备,待响应语音识别设备为区域网络中响应语音信号的语音识别设备。本申请唤醒响应方法能够在多个可响应该语音信号的语音识别设备中确定一个来响应该语音信号。
Description
技术领域
本申请涉及语音唤醒领域,特别是涉及一种语音识别设备及其唤醒响应方法、计算机存储介质。
背景技术
语音识别,语音交互等技术已应用在多个领域,对于搭载了语音识别系统的设备一般在收到语音信号时会被唤醒后对语音信号进行响应。
对于同一区域内的多个语音识别设备,可能出现同时被语音信号唤醒并响应的情况,而在一般的应用场景中,用户显然只会对一个语音识别设备进行唤醒,并且多个语音识别设备的同时唤醒并响应会导致多个语音识别设备之间相互干扰的问题,例如一个语音识别设备响应所述语音信号而播报的声音会被另一个语音识别设备接收并响应,反之亦然,即产生相互干扰的问题。
发明内容
本申请提供一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质,以解决现有技术中多个语音识别设备同时响应唤醒语音,而造成的相互干扰问题。
为解决上述技术问题,本申请提供一种语音识别设备的唤醒响应方法,多个语音识别设备构成网络,多个语音识别设备分为一个中枢设备和至少一个非中枢设备;唤醒响应方法包括:中枢设备分析采集的语音信号,以获得中枢设备的距离信息;中枢设备的距离信息表示中枢设备与语音信号的信号源的距离;接收非中枢设备的距离信息,非中枢设备的距离信息由非中枢设备分析采集的语音信号而获得,表示非中枢设备与信号源的距离;比较中枢设备的距离信息和非中枢设备的距离信息;确定待响应语音识别设备,待响应语音识别设备为区域网络中响应语音信号的语音识别设备。
为解决上述技术问题,本申请提供一种语音识别设备的唤醒响应方法,多个语音识别设备构成区域网络,多个语音识别设备分为一个中枢设备和至少一个非中枢设备;唤醒响应方法包括:非中枢设备分析采集的语音信号,以获得非中枢设备的距离信息;非中枢设备的距离信息表示非中枢设备与所述语音信号的信号源的距离;向中枢设备发送非中枢设备的距离信息,以由中枢设备比较非中枢设备的距离信息和中枢设备的距离信息,来确定待响应语音识别设备;中枢设备的距离信息表示中枢设备与语音信号的信号源的距离,待响应语音识别设备为区域网络中响应语音信号的语音识别设备。
为解决上述技术问题,本申请提供一种语音识别设备,其包括处理器和存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现唤醒响应方法的步骤。
为解决上述技术问题,本申请提供一种计算机存储介质,其中存储有计算机程序,计算机程序被执行时实现上述唤醒响应方法的步骤。
本申请唤醒响应方法中多个语音识别设备构成网络,其中,语音识别设备通过分析采集的语音信号,来确定其与语音信号的信号源的距离信息。多个语音识别设备分为一个中枢设备和至少一个非中枢设备。中枢设备获取其自身的距离信息,并接受非中枢设备的距离信息;然后比较自身的距离信息和非中枢设备的距离信息,从而确定待响应语音识别设备,该待响应语音识别设备即本区域网络中响应语音信号的语音识别设备。本申请中对于构成网络的语音识别设备,在被语音信号唤醒后,暂时不响应,先由中枢设备来确定该由哪个进行响应,从而避免多个语音识别设备均响应后相互干扰的问题。
附图说明
图1是本申请语音识别设备相互连接所构成网络的结构示意图;
图2是本申请语音识别设备的唤醒响应方法应用在单区域网络的流程示意图;
图3是线性阵列的三个麦克风与信号源的位置关系示意图;
图4是本申请语音识别设备的唤醒响应方法应用在多区域网络的流程示意图;
图5是本申请语音识别设备的唤醒响应方法的中枢设备端工作流程示意图;
图6是本申请语音识别设备的唤醒响应方法的非中枢设备端工作流程示意图;
图7是本申请语音识别设备一实施例的结构示意图;
图8是本申请计算机存储介质一实施例的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本申请所提供的一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质做进一步详细描述。
本申请唤醒响应方法应用于多个语音识别设备均可对同一语音信号进行响应的情况,对于这种情况,以家电领域为例,在同一区域或多个相邻区域存在多个家电设备,其中家电设备均具有语音识别功能,即作为语音识别设备。例如客厅区域存在电视机、空调、冰箱等语音识别设备;厨房区域存在冰箱、微波炉、热水壶、电饭煲等语音识别设备。当用户在客厅区域发出语音信号时,由于声音传播特性,在客厅区域内的多个家电设备均可能接收到该语音信号,并对该语音信号进行响应,此时则会出现多个家电设备均进行回应的情况,在该情况下,A家电设备回应的声音可能又被B家电设备接收并响应,继而导致家电设备之间相互干扰,而无法正常回应用户的需求。还例如当用户在客厅区域和厨房区域之间发出语音信号时,两个区域均可接收到语音信号,并对该语音信号进行响应,也会出现相互干扰的问题。
对于本申请语音识别设备来说,为先唤醒后响应的模式,即先被用户发出的语音信号唤醒,然后再对该语音信号进行响应回复。对此,本申请在唤醒和响应之间引入选择确定机制,即在被语音信号唤醒后,暂时不响应,在确定需要响应时再回复。
具体来说对于单个区域,将多个语音识别设备相互连接构成区域网络,其中一个语音识别设备作为该区域网络中的中枢设备,由中枢设备来确定本区域网络中由哪个语音识别设备来响应该语音信号。
对于多个区域,首先每个区域网络的中枢设备确定本区域网络中响应语音信号的待响应语音识别设备,此后,再由所有中枢设备中一个第一中枢设备来确定由哪个区域网络中的待响应语音识别设备来响应,从而解决多个语音识别设备均响应语音信号而造成相互干扰的问题。
在家电领域的应用中,由于中枢设备需要随时能够应对用户的语音信号,以确定响应语音信号的设备,因此一般选择长时间连接电源,基本不会断电的家电设备;且优先选择具有交互屏幕的家电设备来作为网络中枢设备,方便通过交互屏幕进行相关设置。例如,冰箱作为中枢设备。
一般来说,每个区域,例如客厅区域、厨房区域中的家电设备均可分别构成区域网络,该区域网络对应于区域的划分,在网络连接上,不一定构成单独的区域网络,即可能在一个家庭中所有区域的家电设备可相互连接构成整体的家电设备网络。
本申请中所构成的网络包括并不仅限于WIFI无线网络组成的局域网、有线网络组成的局域网、蓝牙mesh组成的局域网、zigbee组成的局域网、RS485组成的局域网、LoRa组成的局域网、1394组成的局域网、CAN组成的局域网等等。所构成网络的通讯机制包括并不仅限于UDP、TCP/IP、HTTP、MQTT、CoAP等等,确保同一网络的每个语音识别设备能够快速和可靠地进行信息交互。
对于本申请的唤醒响应方法,下面从语音识别设备所构成的网络出发,对唤醒响应方法进行说明。
请参阅图1,图1是本申请语音识别设备相互连接所构成网络的结构示意图。图1中区域划分为客厅区域A、厨房区域B、卧室区域C;在客厅区域A,语音识别设备包括:冰箱A1、电视机A2、空气净化器A3;在厨房区域B,语音识别设备包括:抽油烟机B1、电饭煲B2、破壁机B3;在卧室区域C,语音识别设备包括:空调C1、加湿器C2。所有的语音识别设备连接构成网络,每个区域中的语音识别设备也构成区域网络。
每个区域网络中的语音设备分为一个中枢设备和至少一个非中枢设备,由中枢设备确定本区域网络中响应语音信号的待响应语音识别设备。而所有区域网络的中枢设备又分为一个第一中枢设备和至少一个第二中枢设备,由第一中枢设备来确定具体由哪个区域网络中的待响应语音识别设备来响应语音信号。
在本申请一些实施例中,区域网络中的语音设备不仅仅分为中枢设备和非中枢设备,其还进一步具有唤醒优先级,唤醒优先级可由厂商在出厂语音识别设备时进行设置,在连接构成网络后,最高唤醒优先级的语音识别设备自动作为区域网络的中枢设备;唤醒优先级也可以在构建网络时设置,由用户自主设置,或由搭建网络的服务商设置;根据所设置的唤醒优先级,最高唤醒优先级的语音识别设备作为网络的中枢设备。
在图1所示网络中,客厅区域A的优先级排序为A1>A2>A3,厨房区域B的优先级排序为B1>B2>B3,卧室区域C的优先级排序为C1>C2;其中A1、B1、C1分别作为各自所在区域网络的中枢设备。各个区域网络的中枢设备之间也有优先级排序A1>B1>C1,本申请中,A1作为第一中枢设备,B1和C1作为第二中枢设备。
图1所示网络可实现在单区域内的唤醒响应,以及在多区域的唤醒响应。具体请参阅图2和图4,图2是本申请语音识别设备的唤醒响应方法应用在单区域网络的流程示意图,图4是本申请语音识别设备的唤醒响应方法应用在多区域网络的流程示意图。
如图2,对于单区域网络中唤醒响应方法的实现,包括以下步骤。
S201:语音识别设备分析采集的语音信号,获得距离信息。
本步骤中语音识别设备主要进行两个动作,采集和分析。在用户即信号源发出语音信号后,语音识别设备均可对语音信号进行采集,每个语音识别设备由于与用户的相对位置不同,其所采集到的语音信号也不同。其中距离用户比较远的语音识别设备,虽然在区域网络中,也可能并不能采集到语音信号。
语音识别设备对各自所采集到的语音信号进行分析,本实施例每个区域网络中所有语音识别设备对语音信号的分析机制均是相同的,以便于后续的比较计算。对语音信号进行分析计算获得距离信息,距离信息表示了语音识别设备与该语音信号的信号源的距离。
由于需要根据距离信息来确定响应语音信号的待响应语音识别设备,因而距离信息中包括语音识别设备的标识,以及用于判断的距离值。
本实施例中,距离信息的距离值可根据至少三个麦克风所采集的语音信号来确定。即在语音识别设备上设置有至少三个麦克风,每个麦克风均采集语音信号。首先通过至少三个麦克风分别采集语音信号,其中,至少三个麦克风在语音识别设备上的相对位置固定;然后根据至少三个麦克风的相对位置及分别采集的语音信号,计算距离信息的距离值。
具体来说,根据至少三个麦克风分别采集的语音信号,计算至少三个麦克风与信号源的相对方位;根据至少三个麦克风与信号源的相对方位,以及至少三个麦克风之间的相对位置,计算距离信息的距离值。
例如,若语音识别设备上具有线性阵列排布的三个麦克风,请参阅
图3所示,图3是线性阵列的三个麦克风与信号源的位置关系示意图。
具体计算,首先采用DOA算法,计算每两相邻麦克风与信号源的相对方位;利用DOA算法计算mic1和mic2的语音信号,获得相对方位角θ1;利用DOA算法计算mic2和mic3的语音信号,获得相对方位角θ2。
根据以下方程组计算得到mic2与信号源的距离值l。
tanθ1=h/(x+1.5d)
tanθ2=h/(x+0.5d)
l=(h2+(x+d)2)1/2
其中,d即麦克风mic之间的相对距离,以上所算得的距离值l即为语音识别设备与信号源的距离信息的距离值。
对于本实施例区域A中,设备A1所获得距离信息的距离值记为LA1,设备A2所获得距离信息的距离值记为LA2,设备A3所获得距离信息的距离值记为LA3。
本步骤S201中中枢设备分析采集的语音信号,获得中枢设备的响距离信息;而非中枢设备分析采集的语音信号,获得非中枢设备的距离信息。
S202:中枢设备接收非中枢设备的距离信息。
语音识别设备计算获得距离信息后,其中,非中枢设备将自身获得的距离信息发送至中枢设备。本实施例中,中枢设备A1接收到非中枢设备发送的距离信息。
S203:中枢设备比较中枢设备的距离信息和非中枢设备的距离信息,确定待响应语音识别设备。
本步骤中,中枢设备比较中枢设备的距离信息和非中枢设备的距离信息,从而确定区域网络中响应语音信号的待语音识别设备。具体来说,中枢设备采用排序算法来比较距离信息的距离值,获得所有距离信息的距离值的排序,从而得到距离值最小的距离信息,即表示距离语音信号的信号源最近的语音识别设备,距离越近表示用户越大可能是对该语音识别设备发出的语音信号。距离值最小的距离信息所对应的语音识别设备即为待响应语音识别设备。
排序算法包括且不限于插入排序、希尔排序、选择排序、堆排序、冒泡排序、快速排序、归并排序、计算排序、桶排序、基数排序等等。本实施例对距离信息距离值的排序为LA2<LA1<LA3。
在对距离信息进行比较分析时,所得到的距离值最小的距离信息可能有两个甚至多个,此时,则进一步依据语音识别设备的唤醒优先级排序来确定响应语音信号的设备,即在距离值最小的距离信息对应的语音识别设备中,确定优先级最高的作为待响应语音识别设备。
S204:中枢设备向非中枢设备发送是否响应语音信号的通知。
中枢设备在确定响应语音信号的待响应语音识别设备后,则可通过网络向非中枢设备,即向区域网络中所有被唤醒但还未响应的语音识别设备发送是否响应该语音信号的通知,该通知可为具体的是响应或无需响应,也可为所确定的响应该语音信号的语音识别设备的设备信息。也可仅向待响应语音识别设备发送通知,其他未接到通知的语音识别设备不做响应,而接收到通知的则做响应。
S205:待响应语音识别设备响应语音信号。
所确定的语音识别设备即可响应语音信号,而其他的语音识别设备则不响应。保证了只有一个语音识别设备来响应该语音信号,而不会造成相互干扰的问题。
以上图2所示的方法应用于单区域网络的语音唤醒识别,单区域网络中语音识别设备被语音信息唤醒后,并不立即响应,而是由单区域网络的中枢设备确定响应的设备后,再做响应。
多区域网络的唤醒响应方法的实现,基于图2所示单区域网络中待响应语音识别设备的确认。具体来说,多区域网络即多个相互连接的区域网络,每个区域网络的中枢设备相互连接,区分为一个第一中枢设备和至少一个第二中枢设备,在每个区域网络确定其待响应语音识别设备后,再由第一中枢设备进一步确认响应语音信号的语音识别设备。
多区域网络中每个区域网络实现唤醒响应方法的步骤不再赘述,另请参阅图4,多区域网络的唤醒响应方法还包括以下步骤。
S401:第二中枢设备向第一中枢设备发送第二距离信息,第一中枢设备接收第二距离信息。
在多区域网络中,第一中枢设备需比较所有区域网络中待响应语音识别设备的距离信息,从而确定响应语音信号的语音识别设备,待响应语音识别设备为在单个区域网络中所判断出的响应语音信号的语音识别设备;而在多区域网络的应用中,单个区域网络所确定出的待响应语音识别设备,并不立刻进行响应;而是由第一中枢设备再从多个待响应语音识别设备中确认由哪个来响应语音信号,即确定最终的响应语音信号的语音识别设备。因而本步骤S401中第二中枢设备将其第二距离信息发送给第一中枢设备,第二距离信息即第二中枢设备所在区域的待响应语音识别设备的距离信息。
例如,区域A中,由A1比较LA1、LA2、LA3,确定待响应语音识别设备为A2;区域B中,由B1比较LB1、LB2、LB3,确定待响应语音识别设备为B3;区域C中,由C1比较LC1、LC2,确定待响应设备为C1。
B1将其所在区域网络的待响应语音识别设备B3的距离信息LB3发送给A1,C1也将距离信息LC1发送给A1,而A1自身所确定的待响应语音识别设备A2的距离信息为LA2。
S402:第一中枢设备比较第二距离信息和第一距离信息,确定响应语音信号的语音识别设备。
第一中枢设备比较每个待响应语音识别设备的距离信息,即第一距离信息和第二距离信息,第一距离信息为第一中枢设备所在区域网络中的待响应语音识别设备的距离信息。
本步骤S402的比较过程与上述步骤S203的比较过程类似,具体不再赘述。即比较第一距离信息的距离值和第二距离信息的距离值,得到距离值最小的距离信息;确定距离值最小的距离信息对应的语音识别设备响应语音信号。
本实施例中A1比较LA2、LB3、LC1;从而确定响应语音信号的语音识别设备,例如为B2。同样,所得到的距离值最小的距离信息可能有两个甚至多个,此时,则进一步依据语音识别设备的唤醒优先级排序来确定响应语音信号的设备,即在距离值最小的距离信息对应的语音识别设备中,确定优先级最高的作为待响应语音识别设备。
S403:第一中枢设备向多区域网络中的其他语音识别设备发送是否响应语音信号的通知。
第一中枢设备在确定响应语音信号的语音识别设备后,可直接向全网,即多个区域网络发送通知,或者也可首先向各个区域网络的中枢设备发送通知,再由各个中枢设备向非中枢设备发送通知。同样,也可仅发送给响应语音信号的语音识别设备,其他未接收到通知的不作响应。
S404:所确定的语音识别设备响应语音信号。
本步骤S404与上述步骤S205类似,不再赘述。
图4所示的方法应用于多区域的语音唤醒识别,在每个区域确定本区域应响应的语音设备后,再由第一中枢设备来进一步确定由哪个区域的语音设备响应,从而保证仅有一个语音识别设备来响应语音信号。
在图2和图4所应用的网络中,语音识别设备具有唤醒优先级的排序,因而在最高优先级的语音识别设备出现故障时,可根据唤醒优先级的排序来确定下一唤醒优先级的语音识别设备作为中枢设备或第一中枢设备。
对于语音识别设备来说,可周期性的检测其自身在区域网络中是否为最高唤醒优先级,也可在区域网络发生变化时检测自身是否为最高唤醒优先级;若检测到自身为当前区域网络中的最高唤醒优先级,即响应于检测到在区域网络中为最高唤醒优先级,则作为中枢设备运行。
本实施例网络中实现唤醒响应方法,所基于的是网络中语音识别设备具有唤醒优先级排序,且语音识别设备作为网络中枢设备可进行距离信息的比较。因而对于新加入到网络中的语音识别设备,也需要符合本实施例的唤醒机制,可由中枢设备来进行相关设置。
中枢设备可获取加入网络的语音识别设备的设备信息。根据预设规则分析设备信息,以重新对网络中的语音识别设备进行唤醒优先级的排序。
每个语音识别设备均搭载有语音识别系统,语音识别系统决定了唤醒优先级,语音识别算法,唤醒模板等。若新加入的语音识别设备具有不同语音识别系统,即其具有不同的唤醒优先级设置,网络中枢设备则可根据其本身的唤醒优先级设置来重新排序。例如网络A1-A2-A3,新加入的语音识别设备A4,其唤醒优先级的设置为大于A3,则可对将唤醒优先级重新排序为A1>A2>A4>A3。
若新加入的语音识别设备具有相同的语音识别系统,即其具有相同的唤醒优先级设置,则将以先加入网络的语音识别设备的唤醒优先级为更高。例如,新加入的语音识别设备A3,与之前的A3具有相同的语音识别系统,则之前的A3作为A31,新加入的作为A32,唤醒优先级的重新排序为A1>A2>A31>A32。
对于本实施例网络来说,其中实现唤醒响应方法的所有步骤均可在网络内部完成,因而本实施例的语音识别设备可离线运行。
在以上语音识别设备相互连接所构成的单区域网络中,语音识别设备可作为两种角色,一是作为中枢设备运作,另一是作为非中枢设备运作。对于每一语音识别设备,其可作为中枢设备,具有较强较多的功能;也可仅作为非中枢设备,具有轻量化的功能。
在家电领域,对于大型家电,例如冰箱、电视机等,可在其中加载功能较强较多的语音识别系统,使其能够作为中枢设备;而对于小型家电,如电饭煲,电水壶等,可在其中加载轻量级功能的语音识别系统,使其仅作为非中枢设备。
对于能够作为网络中枢设备的语音识别装置,其实现唤醒响应方法的步骤请参阅图5,图5是本申请语音识别设备的唤醒响应方法的中枢设备端工作流程示意图。作为网络中枢设备,其实现唤醒响应方法包括以下步骤。
S501:分析采集的语音信号,以获得中枢设备的距离信息。
对于每个区域网络中的中枢设备时,本步骤S501在上述步骤S201中完成,具体不再赘述。
S502:接收非中枢设备的非中枢设备的距离信息。
本步骤S502与上述步骤S202对应,具体不再赘述。
S503:比较中枢设备的距离信息和非中枢设备的距离信息,确定区域网络中的待响应语音识别设备。
本步骤S503与上述步骤S203类似,具体不再赘述。
上述步骤以语音识别设备作为中枢设备的角色,来说明其在实现单区域唤醒响应方法时的步骤,其中每个步骤的具体细节,中枢设备运行的具体细节也已在上文中描述,因此不再赘述。本实施例语音识别设备可从多个语音识别设备中确定响应该语音信号的一个语音识别设备,从而避免了均响应而相互干扰的问题。
进一步的,对于多区域网络,中枢设备还分为第一中枢设备和第二中枢设备,对于第一中枢设备来说,其进一步执行以下步骤。
S504:第一中枢设备接收第二距离信息。
本步骤S504在上述步骤S401中完成,具体不再赘述。
S506:比较第一距离信息和第二距离信息,确定响应语音信号的语音识别设备。
本步骤S506与上述步骤S402类似,具体不再赘述。
对于第二中枢设备来说,其则执行以下步骤。
S505:第二中枢设备向第一中枢设备发送第二距离信息,以由第一中枢设备比较第一距离信息和第二距离信息,从而确定响应语音信号的语音识别设备。
本步骤S505在上述步骤S401-S402中完成,具体不再赘述。
进一步的,在多区域网络中,由第一中枢设备进一步确定由哪个区域网络中的待响应语音识别设备来响应语音信号。
从非中枢设备的角度来看,其实现唤醒响应方法的步骤请参阅图6,图6是本申请语音识别设备唤醒响应方法的非中枢设备端工作流程示意图。该语音识别设备作为非中枢设备,本实施例唤醒响应方法包括以下步骤。
S601:分析采集的语音信号,以获得非中枢设备的距离信息。
本步骤S601与上述步骤S201类似,均为获取距离信息,具体过程不再赘述。
S602:向中枢设备发送非中枢设备的距离信息,以由中枢设备比较非中枢设备的距离信息和中枢设备的距离信息,来确定待响应语音识别设备。
作为非中枢设备,其在采集到语音信号后,并不立刻响应该语音信号,而是进行计算分析获得距离信息,然后再将该距离信息传送给中枢设备进行分析比较,由中枢设备来确认响应语音信号的语音识别设备。
本实施例以语音识别设备作为非中枢设备的角色,来说明其在实现唤醒响应方法时的步骤,其中每个步骤的具体细节,非中枢设备运行的具体细节也已在上文中描述,因此不再赘述。本实施例语音识别设备在接收到语音信号后不会立即响应,而是在收到通知后再决定是否响应,避免了与其他语音识别设备同时响应,造成的相互干扰的问题。
上述唤醒响应方法由语音识别设备实现,因而本申请还提出语音识别设备,请参阅图7,图7是本申请语音识别设备一实施例的结构示意图,本实施例语音识别设备100可以是家用电器,其包括相互连接的至少三个麦克风11,处理器12和存储器13,本实施例语音识别设备100可实现上述唤醒响应方法的实施例。其中,至少三个麦克风11相对位置固定,用于采集语音信号,存储器13中存储有计算机程序,处理器12用于执行计算机程序以实现上述唤醒响应方法。
具体来说,至少三个麦克风11用于采集语音信号;处理器12用于根据至少三个麦克风的相对位置及分别采集的语音信号,计算获得语音识别设备与语音信号的信号源的距离信息,并比较所有的距离信息,以确定响应语音信号的语音识别设备;向其他语音识别设备发送是否响应语音信号的通知。
或者,至少三个麦克风11用于采集语音信号;处理器12用于根据至少三个麦克风的相对位置及分别采集的语音信号,计算获得语音识别设备与语音信号的信号源的距离信息,将距离信息发送至中枢设备,根据所接收到的中枢设备发送的是否响应语音信号的通知,来确定是否响应。
其中,处理器12可以是一种集成电路芯片,具有信号的处理能力。处理器12还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
对于上述实施例的方法,其可以计算机程序的形式存在,因而本申请提出一种计算机存储介质,请参阅图8,图8是本申请计算机存储介质一实施例的结构示意图。本实施例计算机存储介质200中存储有计算机程序21,其可被执行以实现上述实施例中的方法。
本实施例计算机存储介质200可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (22)
1.一种语音识别设备的唤醒响应方法,其特征在于,所述多个语音识别设备构成区域网络,所述多个语音识别设备分为一个中枢设备和至少一个非中枢设备;所述唤醒响应方法包括:
所述中枢设备分析采集的语音信号,以获得所述中枢设备的距离信息;所述中枢设备的距离信息表示所述中枢设备与所述语音信号的信号源的距离;
接收所述非中枢设备的距离信息,所述非中枢设备的距离信息由所述非中枢设备分析采集的所述语音信号而获得,表示所述非中枢设备与所述信号源的距离;
所述中枢设备比较所述中枢设备的距离信息和所述非中枢设备的距离信息;
所述中枢设备确定待响应语音识别设备,所述待响应语音识别设备为所述区域网络中响应所述语音信号的语音识别设备。
2.根据权利要求1所述的唤醒响应方法,其特征在于,所述比较所述中枢设备的距离信息和所述非中枢设备的距离信息,确定待响应语音识别设备,包括:
比较所述中枢设备的距离信息的距离值和所述非中枢设备的距离信息的距离值,得到距离值最小的距离信息;
确定所述距离值最小的距离信息对应的语音识别设备为所述待响应语音识别设备。
3.根据权利要求2所述的唤醒响应方法,其特征在于,所述多个语音识别设备具有唤醒优先级;所述确定所述距离值最小的距离信息对应的语音识别设备为所述待响应语音识别设备,包括:
在所述距离值最小的距离信息对应的语音识别设备中,确定唤醒优先级最高的作为所述待响应语音识别设备。
4.根据权利要求1所述的唤醒响应方法,其特征在于,所述唤醒响应方法进一步包括:
所述中枢设备向所述非中枢设备发送是否响应所述语音信号的通知。
5.根据权利要求1所述的唤醒响应方法,其特征在于,多个所述区域网络相互连接,所述区域网络中的多个中枢设备分为一个第一中枢设备和至少一个第二中枢设备;所述唤醒响应方法进一步包括:
所述第二中枢设备向所述第一中枢设备发送第二距离信息,以由所述第一中枢设备比较所述第二距离信息和第一距离信息,从而确定响应所述语音信号的语音识别设备;
所述第一距离信息为所述第一中枢设备所在区域网络的待响应语音识别设备的距离信息,所述第二距离信息为所述第二中枢设备所在区域网络的待响应语音识别设备的距离信息。
6.根据权利要求1所述的唤醒响应方法,其特征在于,多个所述区域网络相互连接,所述区域网络中的多个中枢设备分为一个第一中枢设备和至少一个第二中枢设备;所述唤醒响应方法进一步包括:
所述第一中枢设备接收第二距离信息,所述第二距离信息为所述第二中枢设备所在区域网络的待响应语音识别设备的距离信息;
比较所述第二距离信息和第一距离信息,以确定响应所述语音信号的语音识别设备,所述第一距离信息为所述第一中枢设备所在区域网络的待响应语音识别设备的距离信息。
7.根据权利要求5或6所述的唤醒响应方法,其特征在于,所述比较所述第二距离信息和第一距离信息,以确定响应所述语音信号的语音识别设备,包括:
比较所述第一距离信息的距离值和所述第二距离信息的距离值,得到距离值最小的距离信息;
确定所述距离值最小的距离信息对应的语音识别设备响应所述语音信号。
8.根据权利要求7所述的唤醒响应方法,其特征在于,所述多个语音识别设备具有唤醒优先级;所述确定所述距离值最小的距离信息对应的语音识别设备响应所述语音信号,包括:
在所述距离值最小的距离信息对应的语音识别设备中,确定唤醒优先级最高的语音识别设备响应所述语音信号。
9.根据权利要求5或6所述的唤醒响应方法,其特征在于,所述唤醒响应方法进一步包括:
所述第一中枢设备向所述多个区域网络中的其他语音识别设备发送是否响应所述语音信号的通知。
10.根据权利要求1-6中任一项所述的唤醒响应方法,其特征在于,所述中枢设备的距离信息和所述非中枢设备的距离信息统称为距离信息;分析采集的语音信号获得距离信息,包括:
通过至少三个麦克风分别采集所述语音信号,所述至少三个麦克风在所述语音识别设备上的相对位置固定;
根据所述至少三个麦克风的相对位置及分别采集的语音信号,计算所述距离信息的距离值。
11.根据权利要求10所述的唤醒响应方法,其特征在于,所述根据所述至少三个麦克风的相对位置及分别采集的语音信号,计算所述距离信息的距离值,包括:
根据所述至少三个麦克风分别采集的语音信号,计算所述至少三个麦克风与所述信号源的相对方位;
根据所述至少三个麦克风与所述信号源的相对方位,以及所述至少三个麦克风之间的相对位置,计算所述距离信息的距离值。
12.根据权利要求11所述的唤醒响应方法,其特征在于,所述根据所述至少三个麦克风分别采集的语音信号,计算所述至少三个麦克风与所述信号源的相对方位,包括:
利用DOA算法计算线性阵列的三个麦克风分别采集到的语音信号,获得每两相邻所述麦克风与所述信号源的相对方位。
13.一种语音识别设备的唤醒响应方法,其特征在于,所述多个语音识别设备构成区域网络,所述多个语音识别设备分为一个中枢设备和至少一个非中枢设备;所述唤醒响应方法包括:
所述非中枢设备分析采集的语音信号,以获得所述非中枢设备的距离信息;所述非中枢设备的距离信息表示所述非中枢设备与所述语音信号的信号源的距离;
向所述中枢设备发送非中枢设备的距离信息,以由所述中枢设备比较所述非中枢设备的距离信息和所述中枢设备的距离信息,来确定待响应语音识别设备;
所述中枢设备的距离信息表示所述中枢设备与所述语音信号的信号源的距离,所述待响应语音识别设备为所述区域网络中响应所述语音信号的语音识别设备。
14.根据权利要求13所述的唤醒响应方法,其特征在于,所述中枢设备比较所述中枢设备的距离信息和所述非中枢设备的距离信息,确定待响应语音识别设备,包括:
所述中枢设备比较所述中枢设备的距离信息的距离值和所述非中枢设备的距离信息的距离值,得到距离值最小的距离信息;
确定所述距离值最小的距离信息对应的语音识别设备为所述待响应语音识别设备。
15.根据权利要求14所述的唤醒响应方法,其特征在于,所述多个语音识别设备具有唤醒优先级;所述确定所述距离值最小的距离信息对应的语音识别设备为所述待响应语音识别设备,包括:
在所述距离值最小的距离信息对应的语音识别设备中,确定唤醒优先级最高的作为所述待响应语音识别设备。
16.根据权利要求13所述的唤醒响应方法,其特征在于,所述唤醒响应方法进一步包括:
接收所述中枢设备发送的是否响应所述语音信号的通知。
17.根据权利要求13-16中任一项所述的唤醒响应方法,其特征在于,所述中枢设备的距离信息和所述非中枢设备的距离信息统称为距离信息;分析采集的语音信号获得距离信息,包括:
通过至少三个麦克风分别采集所述语音信号,所述至少三个麦克风在所述语音识别设备上的相对位置固定;
根据所述至少三个麦克风的相对位置及分别采集的语音信号,计算所述距离信息的距离值。
18.根据权利要求17所述的唤醒响应方法,其特征在于,所述根据所述至少三个麦克风的相对位置及分别采集的语音信号,计算所述距离信息的距离值,包括:
根据所述至少三个麦克风分别采集的语音信号,计算所述至少三个麦克风与所述信号源的相对方位;
根据所述至少三个麦克风与所述信号源的相对方位,以及所述至少三个麦克风之间的相对位置,计算所述距离信息的距离值。
19.根据权利要求18所述的唤醒响应方法,其特征在于,所述根据所述至少三个麦克风分别采集的语音信号,计算所述至少三个麦克风与所述信号源的相对方位,包括:
利用DOA算法计算线性阵列的三个麦克风分别采集到的语音信号,获得每两相邻所述麦克风与所述信号源的相对方位。
20.一种语音识别设备,其特征在于,所述语音识别设备包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-19中任一项所述方法的步骤。
21.根据权利要求20所述的语音识别设备,其特征在于,所述语音识别设备包括相对位置固定的至少三个麦克风。
22.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被执行以实现如权利要求1-19中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343044.7A CN111862964B (zh) | 2019-04-26 | 2019-04-26 | 语音识别设备及其唤醒响应方法、计算机存储介质 |
PCT/CN2019/124117 WO2020215741A1 (zh) | 2019-04-26 | 2019-12-09 | 语音识别设备及其唤醒响应方法、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910343044.7A CN111862964B (zh) | 2019-04-26 | 2019-04-26 | 语音识别设备及其唤醒响应方法、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111862964A CN111862964A (zh) | 2020-10-30 |
CN111862964B true CN111862964B (zh) | 2024-03-22 |
Family
ID=72940705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910343044.7A Active CN111862964B (zh) | 2019-04-26 | 2019-04-26 | 语音识别设备及其唤醒响应方法、计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111862964B (zh) |
WO (1) | WO2020215741A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450791B (zh) * | 2021-04-28 | 2023-08-04 | 珠海格力电器股份有限公司 | 一种语音设备控制方法、装置、存储介质及语音设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017135531A1 (ko) * | 2016-02-05 | 2017-08-10 | 삼성전자(주) | 음성인식 장치 및 방법, 음성인식시스템 |
CN108337601A (zh) * | 2018-01-30 | 2018-07-27 | 出门问问信息科技有限公司 | 音箱的控制方法及装置 |
CN109377987A (zh) * | 2018-08-31 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 智能语音设备间的交互方法、装置、设备及存储介质 |
CN109509468A (zh) * | 2018-11-01 | 2019-03-22 | 珠海格力电器股份有限公司 | 一种设备执行语音播报任务的方法及装置 |
CN109658927A (zh) * | 2018-11-30 | 2019-04-19 | 北京小米移动软件有限公司 | 智能设备的唤醒处理方法、装置及管理设备 |
-
2019
- 2019-04-26 CN CN201910343044.7A patent/CN111862964B/zh active Active
- 2019-12-09 WO PCT/CN2019/124117 patent/WO2020215741A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017135531A1 (ko) * | 2016-02-05 | 2017-08-10 | 삼성전자(주) | 음성인식 장치 및 방법, 음성인식시스템 |
CN108337601A (zh) * | 2018-01-30 | 2018-07-27 | 出门问问信息科技有限公司 | 音箱的控制方法及装置 |
CN109377987A (zh) * | 2018-08-31 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 智能语音设备间的交互方法、装置、设备及存储介质 |
CN109509468A (zh) * | 2018-11-01 | 2019-03-22 | 珠海格力电器股份有限公司 | 一种设备执行语音播报任务的方法及装置 |
CN109658927A (zh) * | 2018-11-30 | 2019-04-19 | 北京小米移动软件有限公司 | 智能设备的唤醒处理方法、装置及管理设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020215741A1 (zh) | 2020-10-29 |
CN111862964A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111862988B (zh) | 语音识别设备及其唤醒响应方法、计算机存储介质 | |
US9431014B2 (en) | Intelligent placement of appliance response to voice command | |
CN105388777B (zh) | 智能家居控制系统 | |
US9887854B2 (en) | Method and apparatus for dynamically changing group control mode by using user intervention information | |
US20220239622A1 (en) | Efficient Network Stack for Wireless Application Protocols | |
US20130073681A1 (en) | Creating interactive zones | |
KR101280683B1 (ko) | 무선 센서 제어 네트워크에서의 슬리핑 디바이스들과 무선 통신하는 방법 및 도구 | |
CN110568771B (zh) | 一种智能联动控制智能家居设备的系统及方法 | |
US10165522B2 (en) | Reducing wireless communication to conserve energy and increase security | |
CN108259279B (zh) | 空调的控制方法和系统、存储介质、处理器 | |
CN112309378B (zh) | 语音识别设备及其唤醒响应方法、计算机存储介质 | |
CN110840335A (zh) | 机器人位置状态检测方法及其机器人 | |
CN111862964B (zh) | 语音识别设备及其唤醒响应方法、计算机存储介质 | |
WO2022042751A1 (zh) | 一种移动轨迹生成方法和装置 | |
CN110798815A (zh) | 智能家居系统、电器设备控制方法及装置、路由器 | |
CN110286603B (zh) | 基于智能家居操作系统的指示信息的发送方法及装置 | |
US20160127460A1 (en) | Multi-hop wireless peer-to-peer discovery protocol | |
Habaebi et al. | Development of Wi-Fi based home energy monitoring system for green internet of things | |
CN115312048B (zh) | 设备唤醒方法及装置、存储介质及电子装置 | |
EP4380112A1 (en) | Server for controlling home network on basis of sleep state and operating method therefor | |
US12126465B2 (en) | Server for controlling home network based on sleep state and method for operating the same | |
Saleem | Presence Aware Power Saving Mode (PA-PSM) enhancement for IoT devices for energy conservation | |
CN115426213A (zh) | 语音面板设备唤醒方法、语音面板设备、系统及介质 | |
CN112015102A (zh) | 智能控制开关的升级方法、装置、智能控制开关以及存储介质 | |
CN115933871A (zh) | 智能设备的控制方法、装置、智能系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |