CN109709518B - 声源定位方法、装置、智能设备及存储介质 - Google Patents

声源定位方法、装置、智能设备及存储介质 Download PDF

Info

Publication number
CN109709518B
CN109709518B CN201811589789.3A CN201811589789A CN109709518B CN 109709518 B CN109709518 B CN 109709518B CN 201811589789 A CN201811589789 A CN 201811589789A CN 109709518 B CN109709518 B CN 109709518B
Authority
CN
China
Prior art keywords
frame
pcm data
data
pcm
frame number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811589789.3A
Other languages
English (en)
Other versions
CN109709518A (zh
Inventor
郑垦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201811589789.3A priority Critical patent/CN109709518B/zh
Publication of CN109709518A publication Critical patent/CN109709518A/zh
Application granted granted Critical
Publication of CN109709518B publication Critical patent/CN109709518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及语音信号处理技术领域,公开了一种声源定位方法、装置、智能设备及存储介质,所述方法包括:根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;从触发定位操作的PCM数据中提取帧号;将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。本发明实施例提供的技术方案,提高了声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。

Description

声源定位方法、装置、智能设备及存储介质
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种声源定位方法、装置、智能设备及存储介质。
背景技术
目前,市场上有越来越多的产品具有语音交互功能,例如智能音箱、机器人等智能设备。这些智能设备在接收到唤醒指令时,会从睡眠状态转为工作状态,并开始通过语音采集装置采集语音信号,进而可以对该语音信号进行识别和解析,从而响应该语音信号对应的交互指令。显然,在产品功能实现过程中,声源定位是非常重要的,只有准确地定位用户声源方位,才能准确地获取用户发出的语音信号,才能进行正确的响应行为。
上述具有语音交互功能的智能设备在接收到唤醒指令后,由智能设备内的控制装置中安装的软件系统的SDK层将唤醒消息通过local socket的方式发送给语音采集装置。由于消息的传递具有时延性,因此,语音采集装置在收到唤醒消息后,会往后回溯固定的时间以找到唤醒时刻用户的语音信息,并基于唤醒时刻用户的语音信息计算用户的方位,并将方位信息通过local socket的方式反馈给SDK层。
由于唤醒功能一般在智能设备中实现,而智能设备受限于成本等原因,硬件规格往往不高。当智能设备的CPU或内存的利用率较高时,会导致local socket消息严重滞后,而此时语音采集装置仍通过回溯固定的时间查找语音信息,会导致查找到的语音信息并不是唤醒时刻的语音信息,影响声源定位的准确率。
发明内容
本发明实施例提供一种声源定位方法、装置、智能设备及存储介质,以解决现有技术中无法准确确定唤醒时刻,导致声源定位准确率低的问题。
第一方面,本发明一实施例提供了一种声源定位方法,包括:
根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;
从触发定位操作的PCM数据中提取帧号;
将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。
第二方面,本发明一实施例提供了一种声源定位方法,包括:
为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;
接收控制装置发送的帧号;
查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
第三方面,本发明一实施例提供了一种声源定位装置,包括:
识别模块,用于根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;
提取模块,用于从触发定位操作的PCM数据中提取帧号;
发送模块,用于将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。
第四方面,本发明一实施例提供了一种声源定位装置,包括:
帧号添加模块,用于为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;
接收模块,用于接收控制装置发送的帧号;
定位模块,用于查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
第五方面,本发明一实施例提供了一种智能设备的控制装置,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述第一方面中的任一种方法的步骤。
第六方面,本发明一实施例提供了一种语音采集装置,包括多个麦克风、收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,收发机用于在处理器的控制下接收和发送数据,麦克风用于采集音频并得到音频对应的PCM数据,处理器执行程序时实现上述第二方面中的任一种方法的步骤。
第七方面,本发明一实施例提供了一种智能设备,包括:上述第五方面中的控制装置以及如上述第六方面中的语音采集装置。
第八方面,本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。
本发明实施例提供的技术方案,在语音采集装置生成的每一帧PCM数据中增加帧号,以区分不同时刻的PCM数据,智能设备的控制装置从语音采集装置中获取带有帧号的PCM数据,根据PCM数据分析是否进行声源定位,将触发定位操作的PCM数据中的帧号发送给语音采集装置,使得语音采集装置能够根据接收到的帧号准确地查找到触发定位操作的PCM数据,以提高声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。此外,在几乎不影响声音识别的前提下,将帧号隐藏在原有PCM数据中,实现方法简单高效,不会增加额外的资源开销。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声源定位方法的应用场景示意图;
图2为本发明一实施例提供的声源定位方法的流程示意图;
图3为本发明一实施例提供的声源定位方法的流程示意图;
图4为本发明一实施例提供的声源定位装置的结构示意图;
图5为本发明一实施例提供的声源定位装置的结构示意图;
图6为本发明一实施例提供的智能设备的控制装置的结构示意图;
图7为本发明一实施例提供的语音采集装置的结构示意图;
图8为本发明一实施例提供的智能设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
PCM(Pulse Code Modulation)也被称为脉码编码调制。PCM中的声音数据没有被压缩,如果是单声道的文件,采样数据按时间的先后顺序依次存入。一般情况下,将8毫秒的PCM数据作为一帧PCM数据,一帧PCM数据为128short。1short=2byte(字节)=16bit(位)。
麦克风阵列(Microphone Array),由一定数目的声学传感器(一般是麦克风)组成的用来对声场的空间特性进行采样并处理的系统,通过麦克风阵列可实现声源定位。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
在具体实践过程中,由智能设备内的控制装置中安装的软件系统的SDK层将唤醒消息通过local socket的方式发送给语音采集装置,由于消息的传递具有时延性,因此,语音采集装置在收到唤醒消息后,会往后回溯固定的时间以找到唤醒时刻用户的语音信息,并基于唤醒时刻用户的语音信息计算用户的方位。但是,当智能设备的CPU或内存的利用率较高时,会导致local socket消息严重滞后,而此时语音采集装置仍通过回溯固定的时间查找语音信息,会导致查找到的语音信息并不是唤醒时刻的语音信息,影响声源定位的准确率。
为此,本发明的发明人考虑到,语音采集装置在生成的每一帧PCM数据中增加帧号,以区分不同时刻的PCM数据。由智能设备的控制装置从语音采集装置中获取带有帧号的PCM数据,根据PCM数据分析是否收到唤醒指令,在确定收到唤醒指令后,将PCM数据中的帧号发送给语音采集装置,使得语音采集装置能够根据控制装置发送的帧号精准地查到唤醒时刻的PCM数据,并基于查找到的PCM数据精准地判断声源方位,提高声源定位的准确性。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
首先参考图1,其为本发明实施例提供的声源定位方法的应用场景示意图。语音采集装置11采集用户10说话的声音,语音采集装置11将采集到的声音转换为PCM数据发送给智能设备的控制装置12,控制装置12基于PCM数据进行声音识别,在根据识别结果确定需要进行声源定位后,将声源定位的消息发送给语音采集装置11,语音采集装置11收到声源定位的消息后对用户10进行声源定位。
上述应用场景中,智能设备可以是智能机器人、智能音箱等具有语音交互功能的智能设备。语音采集装置11是具备声源定位功能的语音采集装置,例如,可以是麦克风阵列。语音采集装置11可以内置在智能设备中,或者,语音采集装置11也可以是智能设备的外接设备,语音采集装置11和智能设备的控制装置12间建立通信连接,该通信连接可以为有线连接或无线连接,其中,无线连接可以为WIFI连接、蓝牙连接等。
下面结合图1所示的应用场景,对本发明实施例提供的技术方案进行说明。
参考图2,本发明实施例提供一种声源定位方法,应用于智能设备的控制装置,包括以下步骤:
S201、根据从语音采集装置获取的PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号。
具体实施时,何种情况下触发定位操作可根据具体的应用场景确定,本实施例不作限定。例如,应用场景为在唤醒时进行声源定位,则在根据PCM数据检测到唤醒词时,触发定位操作。
语音采集装置可以是麦克风阵列,包含多个通道,每个通道对应一个麦克风,即每个通道对应采集一路PCM数据,基于多个通道的PCM数据实现声源定位。每个通道均通过模/数转换器(A/D)对声音波形进行采样,每一次采样都记录下声音波形在某一时刻的状态,以将声音波形转换成一连串的二进制数据,每一次采样即对应一个音频数据,一般一个音频数据为8bit或16bit,具体位数视采样精度而定。一帧PCM数据一般包含256或128个音频数据。
本实施例中,智能设备的控制装置从语音采集装置中获取一个通道的PCM数据检测否触发定位操作。
具体实施时,帧号以二进制数的形式分布在每一帧PCM数据中第一预设位置处的音频数据的最后一位。帧号的位数可根据需要设定,第一预设位置的数量与帧号的位数相等,例如,当帧号为8位时,第一预设位置的数量为8,当帧号为16位时,第一预设位置的数量为16。第一预设位置可以是一帧PCM数据中的任意位置,例如,当帧号为16位时,第一预设位置可以是一帧PCM数据中的前16个音频数据,也可以是后16个音频数据,或者是中间相连或不相连的16个音频数据。假设,帧号为0110,第一预设位置为前4个音频数据,则在语音采集装置采集的一帧PCM数据中,前4个音频数据的最后一位数据依次修改为0、1、1、0。
具体实施时,如果用16位数据来表示帧号,则帧号的范围为0~65535,帧号从0~65535不间断的循环,因此,语音采集装置最多能回溯65536帧PCM数据。
S202、从触发定位操作的PCM数据中提取帧号。
一般一帧PCM数据仅包含8毫秒的数据,因此,触发一次定位操作的PCM数据应当包含多帧PCM数据,分别提取这多帧PCM数据的帧号,将这些帧号一起发送给语音采集装置。
具体实施时,步骤S202具体包括以下步骤:从触发定位操作的每一帧PCM数据中提取第一预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到每一帧PCM数据的帧号。
其中,第一预设位置以及预设顺序都是根据添加帧号的规则确定的。即按照在PCM数据中添加帧号的规则,从PCM数据中读取帧号。假设帧号为0110,添加帧号时,第一预设位置为5~8个音频数据,预设顺序是,帧号的第一位“0”放置在第五个音频数据的最后一位,帧号的第二位“1”放置在第六个音频数据的最后一位,帧号的第三位“1”放置在第七个音频数据的最后一位,帧号的第四位“0”放置在第八个音频数据的最后一位,则在提取帧号时,从一帧PCM数据中提取第5~8个音频数据的最后一位数据,分别为0、1、1、0,顺序连接提取的四个位置的数据得到帧号为0110。
S203、将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。
语音采集装置中存储了携带帧号的PCM数据,语音采集装置根据接收到的帧号就能准确地查找到触发定位操作的PCM数据,以提高声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。
一般一个音频数据为8bit或16bit,因此,仅改变数据音频数据的最后一位数据,几乎不会对该音频数据造成影响。而一帧PCM数据一般包含256或128个音频数据,仅修改其中几个音频数据的最后一位数据,几乎不会影响声音的识别。因此,本实施例的声源定位方法,在几乎不影响声音识别的前提下,将帧号隐藏在原有PCM数据中,实现方法简单高效,不会增加额外的资源开销。
进一步地,每一帧PCM数据携带有校验号。
具体实施时,校验号以二进制数的形式分布在每一帧PCM数据中第二预设位置处的音频数据的最后一位。校验号的位数可根据需要设定,第二预设位置的数量与校验号的位数相等,例如,当校验号为8位时,第二预设位置的数量为8,当校验号为16位时,第二预设位置的数量为16。第二预设位置可以是一帧PCM数据中的任意位置,例如,当校验号为16位时,第二预设位置可以是一帧PCM数据中的前16个音频数据,也可以是后16个音频数据,或者是中间相连或不相连的16个音频数据。假设,校验号为0110,第二预设位置为前4个音频数据,则在语音采集装置采集的一帧PCM数据中,前4个音频数据的最后一位数据依次修改为0、1、1、0。
一般一个音频数据为8bit或16bit,因此,仅改变数据音频数据的最后一位数据,几乎不会对该音频数据造成影响。而一帧PCM数据一般包含256或128个音频数据,仅修改其中几个音频数据的最后一位数据,几乎不会影响声音的识别。因此,在一帧PCM数据添加几位校验号并不会影响声音的识别。
需要说明的是,第一预设位置与第二预设位置不重叠。
基于PCM数据中的校验号,在S202之前,本实施的方法还包括以下步骤:从触发定位操作的PCM数据中提取校验号,并验证提取的校验号与预设校验号是否相同。
若提取的校验号与预设校验号相同,则执行步骤S202、从触发定位操作的PCM数据中提取帧号;若提取的校验号与预设校验号不相同,则不执行步骤S202和S203。
提取的校验号与预设校验号不相同,表示这一帧PCM数据已损坏,一旦PCM数据损坏,从中提取的帧号也可能发生错误,从而导致语音采集装置查询到错误的PCM数据,影响声源定位的准确性。因此,本实施例的方法通过校验号识别出损坏的PCM数据,防止因数据损坏影响声源定位的准确性。
进一步地,从触发定位操作的PCM数据中提取校验号的方法包括以下步骤:从触发定位操作的每一帧PCM数据中提取第二预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到每一帧PCM数据的校验号。
其中,第二预设位置以及预设顺序都是根据添加校验号的规则确定的。即按照在PCM数据中添加校验号的规则,从PCM数据中读取校验号。假设校验号为0110,添加校验号时,第二预设位置为前4个音频数据,预设顺序是,校验号的第一位“0”放置在第一个音频数据的最后一位,校验号的第二位“1”放置在第二个音频数据的最后一位,校验号的第三位“1”放置在第三个音频数据的最后一位,校验号的第四位“0”放置在第四个音频数据的最后一位,则在提取校验号时,从一帧PCM数据中提取前4个音频数据的最后一位数据,分别为0、1、1、0,顺序连接提取的四个数据得到校验码为0110。
基于与上述声源定位方法相同的发明构思,本发明实施例提供另一种声源定位方法,应用于语音采集装置,参考图3,包括以下步骤:
S301、为每一帧PCM数据添加帧号并发送给智能设备的控制装置。
本实施例中,语音采集装置可以为麦克风阵列,包含多个通道,每个通道对应一个麦克风,即对应采集一路PCM数据,基于多个通道的PCM数据实现声源定位。在添加帧号时,给不同通道在同一时刻产生的PCM数据标记上相同的帧号。智能设备的控制装置从语音采集装置中获取一个通道的PCM数据检测否触发定位操作。
具体实施时,步骤S301所指的为每一帧PCM数据添加帧号,具体包括:将每一帧PCM数据的帧号对应的二进制数的各位数据分别存入每一帧PCM数据中第一预设位置处各个音频数据的最后一位。
帧号的位数可根据需要设定,第一预设位置的数量与帧号的位数相等,例如,当帧号为8位时,第一预设位置的数量为8,当帧号为16位时,第一预设位置的数量为16。第一预设位置可以是一帧PCM数据中的任意位置,例如,当帧号为16位时,第一预设位置可以是一帧PCM数据中的前16个音频数据,也可以是后16个音频数据,或者是中间相连或不相连的16个音频数据。假设,需要添加到一帧PCM数据中的帧号为0110,第一预设位置为前4个音频数据,则将这一帧PCM数据中的前4个音频数据的最后一位数据依次修改为0、1、1、0,将添加帧号的PCM数据发送给智能设备的控制装置。
具体实施时,如果用16位数据来表示帧号,则帧号的范围为0~65535,帧号从0~65535不间断的循环,因此,语音采集装置最多能回溯65536帧PCM数据。
S302、接收控制装置发送的帧号。
智能终端通过SDK层与语音采集装置传输数据。智能终端首先根据从语音采集装置获取的PCM数据确定是否触发定位操作,在确定触发定位操作后,从触发定位操作的PCM数据中提取帧号,将帧号通过SDK层发送给语音采集装置。
S303、查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
基于帧号,查找到语音采集装置所有通道中与该帧号对应的PCM数据,基于多个通道的PCM数据进行声源定位。
语音采集装置中存储了携带帧号的PCM数据,语音采集装置根据接收到的帧号就能准确地查找到触发定位操作的PCM数据,以提高声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。
一般一个音频数据为8bit或16bit,因此,仅改变数据音频数据的最后一位数据,几乎不会对该音频数据造成影响。而一帧PCM数据一般包含256或128个音频数据,仅修改其中几个音频数据的最后一位数据,几乎不会影响声音的识别。因此,本实施例的声源定位方法,在几乎不影响声音识别的前提下,将帧号隐藏在原有PCM数据中,实现方法简单高效,不会增加额外的资源开销。
进一步地,在语音采集装置将PCM数据发送给控制装置之前,本实施例的方法还包括以下步骤:为每一帧PCM数据添加校验号。
其中,为每一帧PCM数据添加校验号的方法具体包括:将校验号对应的二进制数的各位数据分别存入每一帧PCM数据中第二预设位置处各个音频数据的最后一位。
添加校验号的方法与上述添加帧号的方法类似,不再赘述。需要说明的是,第一预设位置与第二预设位置不重叠。
一旦PCM数据中的校验号发生了变化,则表示这一帧PCM数据在传输过程中发生了损坏,一旦PCM数据损坏,从中提取的帧号也可能发生错误,从而导致语音采集装置查询到错误的PCM数据,影响声源定位的准确性。因此,本实施例的方法在PCM数据中隐藏了校验号,使得智能终端能够通过校验号识别出损坏的PCM数据,防止因数据损坏影响声源定位的准确性。
如图4所示,基于与上述声源定位方法相同的发明构思,本发明实施例还提供了一种声源定位装置40,包括识别模块401、提取模块402和发送模块403。
识别模块401用于根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号。
提取模块402用于从触发定位操作的PCM数据中提取帧号;
发送模块403用于将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。
进一步地,提取模块402具体用于:从触发定位操作的每一帧PCM数据中提取第一预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到每一帧PCM数据的帧号。
进一步地,每一帧PCM数据携带有校验号。
本发明实施例的声源定位装置40还包括校验模块,用于在从触发定位操作的PCM数据中提取帧号之前,从触发定位操作的PCM数据中提取校验号,并验证提取的校验号与预设校验号是否相同,并在提取的校验号与预设校验号相同时触发提取模块402执行从触发定位操作的PCM数据中提取帧号的操作。
进一步地,校验模块具体用于从触发定位操作的每一帧PCM数据中提取第二预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到每一帧PCM数据的校验号。
本发明实施例提的声源定位装置与上述声源定位方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
如图5所示,基于与上述声源定位方法相同的发明构思,本发明实施例还提供了一种声源定位装置50,包括帧号添加模块501、接收模块502和定位模块503。
帧号添加模块501用于为每一帧PCM数据添加帧号并发送给智能设备的控制装置;
接收模块502用于接收控制装置发送的帧号;
定位模块503用于查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
进一步地,帧号添加模块501具体用于将每一帧PCM数据的帧号对应的二进制数的各位数据分别存入每一帧PCM数据中第一预设位置处各个音频数据的最后一位。
进一步地,本发明实施例的一种声源定位装置50还包括校验号添加模块,用于在将PCM数据发送给智能设备的控制装置之前,为每一帧PCM数据添加校验号。
进一步地,校验号添加模块具体用于将校验号对应的二进制数的各位数据分别存入每一帧PCM数据中第二预设位置处各个音频数据的最后一位。
本发明实施例提的声源定位装置与上述声源定位方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述声源定位方法相同的发明构思,本发明实施例还提供了一种智能设备的控制装置,如图6所示,该控制装置60可以包括处理器601、存储器602和收发机603。收发机603用于在处理器601的控制下接收和发送数据。
存储器602可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储声源定位方法的程序。
处理器601可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的声源定位方法。
基于与上述声源定位方法相同的发明构思,本发明实施例还提供了一种语音采集装置,如图7所示,该语音采集装置可以包括多个麦克风701、处理器702、存储器703和收发机704。收发机704用于在处理器702的控制下接收和发送数据。麦克风701用于采集音频并得到音频对应的PCM数据。
存储器703可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储声源定位方法的程序。
处理器702可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的声源定位方法。
如图8所示,本发明实施例还提供了一种智能设备80,包括:上述控制装置60以及上述语音采集装置70。
智能设备80具体可以但不限于为智能音箱、机器人等。
本发明实施例提供了一种计算机可读存储介质,用于储存为上述控制装置60或语音采集装置70所用的计算机程序指令,其包含用于执行上述声源定位方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。

Claims (20)

1.一种声源定位方法,其特征在于,包括:
根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;
根据添加帧号的规则,从触发定位操作的PCM数据中提取帧号;
将所述帧号发送给所述语音采集装置,以使所述语音采集装置根据所述帧号对应的PCM数据计算声源方位。
2.根据权利要求1所述的方法,其特征在于,所述从触发定位操作的PCM数据中提取帧号,包括:
从触发定位操作的每一帧PCM数据中提取第一预设位置处的音频数据的最后一位数据;
按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的帧号。
3.根据权利要求1或2所述的方法,其特征在于,所述每一帧PCM数据携带有校验号;
在从触发定位操作的PCM数据中提取帧号之前,还包括:
从触发定位操作的PCM数据中提取校验号,并验证提取的校验号与预设校验号是否相同;
所述从触发定位操作的PCM数据中提取帧号,包括:
若提取的校验号与预设校验号相同,则从触发定位操作的PCM数据中提取帧号。
4.根据权利要求3所述的方法,其特征在于,所述从触发定位操作的PCM数据中提取校验号,包括:
从触发定位操作的每一帧PCM数据中提取第二预设位置处的音频数据的最后一位数据;
按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的校验号。
5.一种声源定位方法,其特征在于,包括:
根据添加帧号的规则,为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;
接收所述控制装置发送的帧号;
查找到所述帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
6.根据权利要求5所述的方法,其特征在于,所述为每一帧PCM数据添加帧号,包括:
将每一帧PCM数据的帧号对应的二进制数的各位数据分别存入所述每一帧PCM数据中第一预设位置处各个音频数据的最后一位。
7.根据权利要求5或6所述的方法,其特征在于,在将PCM数据发送给智能设备的控制装置之前,还包括:
为每一帧PCM数据添加校验号。
8.根据权利要求7所述的方法,其特征在于,所述为每一帧PCM数据添加校验号,包括:
将校验号对应的二进制数的各位数据分别存入每一帧PCM数据中第二预设位置处各个音频数据的最后一位。
9.一种声源定位装置,其特征在于,包括:
识别模块,用于根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;
提取模块,用于根据添加帧号的规则,从触发定位操作的PCM数据中提取帧号;
发送模块,用于将所述帧号发送给所述语音采集装置,以使所述语音采集装置根据所述帧号对应的PCM数据计算声源方位。
10.根据权利要求9所述的装置,其特征在于,所述提取模块具体用于:
从触发定位操作的每一帧PCM数据中提取第一预设位置处的音频数据的最后一位数据;
按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的帧号。
11.根据权利要求9或10所述的装置,其特征在于,所述每一帧PCM数据携带有校验号;
还包括校验模块,用于在从触发定位操作的PCM数据中提取帧号之前,从触发定位操作的PCM数据中提取校验号,并验证提取的校验号与预设校验号是否相同;
所述提取模块,用于若提取的校验号与预设校验号相同,则从触发定位操作的PCM数据中提取帧号。
12.根据权利要求11所述的装置,其特征在于,所述校验模块具体用于:
从触发定位操作的每一帧PCM数据中提取第二预设位置处的音频数据的最后一位数据;
按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的校验号。
13.一种声源定位装置,其特征在于,包括:
帧号添加模块,用于根据添加帧号的规则,为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;
接收模块,用于接收所述控制装置发送的帧号;
定位模块,用于查找到所述帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。
14.根据权利要求13所述的装置,其特征在于,所述帧号添加模块,具体用于将每一帧PCM数据的帧号对应的二进制数的各位数据分别存入所述每一帧PCM数据中第一预设位置处各个音频数据的最后一位。
15.根据权利要求13或14所述的装置,其特征在于,还包括校验号添加模块,用于在将PCM数据发送给智能设备的控制装置之前,为每一帧PCM数据添加校验号。
16.根据权利要求15所述的装置,其特征在于,所述校验号添加模块,具体用于将校验号对应的二进制数的各位数据分别存入每一帧PCM数据中第二预设位置处各个音频数据的最后一位。
17.一种智能设备的控制装置,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现权利要求1至4任一项所述方法的步骤。
18.一种语音采集装置,包括多个麦克风、收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述麦克风用于采集音频并得到音频对应的PCM数据,所述处理器执行所述程序时实现权利要求5至8任一项所述方法的步骤。
19.一种智能设备,其特征在于,包括:如权利要求17所述的控制装置以及如权利要求18所述的语音采集装置。
20.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN201811589789.3A 2018-12-25 2018-12-25 声源定位方法、装置、智能设备及存储介质 Active CN109709518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811589789.3A CN109709518B (zh) 2018-12-25 2018-12-25 声源定位方法、装置、智能设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811589789.3A CN109709518B (zh) 2018-12-25 2018-12-25 声源定位方法、装置、智能设备及存储介质

Publications (2)

Publication Number Publication Date
CN109709518A CN109709518A (zh) 2019-05-03
CN109709518B true CN109709518B (zh) 2021-07-20

Family

ID=66257588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811589789.3A Active CN109709518B (zh) 2018-12-25 2018-12-25 声源定位方法、装置、智能设备及存储介质

Country Status (1)

Country Link
CN (1) CN109709518B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN107144819A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种声源定位方法、装置及电子设备
CN108152788A (zh) * 2017-12-22 2018-06-12 西安Tcl软件开发有限公司 声源追踪方法、声源追踪设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103346830B (zh) * 2013-07-03 2016-05-11 深圳中科智星通科技有限公司 基于北斗卫星的语音传输方法和装置
CN104464750B (zh) * 2014-10-24 2017-07-07 东南大学 一种基于双耳声源定位的语音分离方法
CN106782596A (zh) * 2016-11-18 2017-05-31 深圳市行者机器人技术有限公司 一种基于麦克风阵列的声源定位跟随系统及方法
CN206610169U (zh) * 2017-04-08 2017-11-03 广西大学 采用声音定位导航的自动导引运输装置
CN107102296B (zh) * 2017-04-27 2020-04-14 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN108564952B (zh) * 2018-03-12 2019-06-07 新华智云科技有限公司 语音角色分离的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN107144819A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种声源定位方法、装置及电子设备
CN108152788A (zh) * 2017-12-22 2018-06-12 西安Tcl软件开发有限公司 声源追踪方法、声源追踪设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《AV3中CBC算法的改进与CBR编码模式的研究》;张慧芳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080915(第09期);正文第24-36页 *
《Scalefactor based bit shift FGS audio coding》;Chen FangChu et.al;《Advanced Information Networking and Application》;20051231(第2期);第235-238页 *

Also Published As

Publication number Publication date
CN109709518A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
US9431029B2 (en) Method for detecting voice section from time-space by using audio and video information and apparatus thereof
CN105788599A (zh) 语音处理方法、路由器及智能语音控制系统
CN109377991B (zh) 一种智能设备控制方法及装置
US11908456B2 (en) Azimuth estimation method, device, and storage medium
CN107424611B (zh) 语音交互方法及装置
CN107924687A (zh) 语音识别设备、用户设备的语音识别方法和非暂时性计算机可读记录介质
CN105577293A (zh) 一种蓝牙设备的测试方法、装置及系统
CN107708048B (zh) 啸叫检测方法和装置、存储介质及电子装置
US20220167084A1 (en) Voice acquisition control method and device, and tws earphones
US11244686B2 (en) Method and apparatus for processing speech
EP3139265A1 (en) Handsfree device with continuous keyword recognition
CN109348392B (zh) 一种实现麦克风阵列硬件状态检测的方法
CN103617801A (zh) 语音检测方法、装置及电子设备
US20210142795A1 (en) Method for Processing Voice Data and Related Products
CN113194372B (zh) 一种耳机的控制方法、装置及相关组件
CN105744056A (zh) 音量调节方法及装置
US20200193979A1 (en) Method and apparatus for recognizing voice
US20200342853A1 (en) Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication
US8886527B2 (en) Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals
CN109709518B (zh) 声源定位方法、装置、智能设备及存储介质
CN105704839A (zh) 一种蓝牙连接方法和装置
CN112151038A (zh) 语音重放攻击检测方法、装置、可读存储介质及电子设备
CN105306685B (zh) 信号质量的测试方法及移动终端
CN105337672B (zh) 声波发送方法、接收方法、发送装置、接收装置及系统
CN103454579B (zh) 一种芯片数字接口的测试方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant