CN109410934A

CN109410934A - 一种基于声纹特征的多人声音分离方法、系统及智能终端

Info

Publication number: CN109410934A
Application number: CN201811221300.7A
Authority: CN
Inventors: 廖明进
Original assignee: Shenzhen Magic Hearing Culture Technology Co Ltd
Current assignee: Shenzhen Magic Hearing Culture Technology Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-01

Abstract

本发明实施例公开了一种基于声纹特征的多人声音分离方法、系统及智能终端，包括步骤：获取若干用户音频源文件；将所述音频源文件转换为pcm格式的音频文件；按照预设步长和预设切割长度将所述pcm格式的音频文件切割成若干个语音单元；对所述语音单元进行语音识别，从中识别是否包含唤醒词，如包含则将所述音频文件存入音频暂存区；判断音频暂存区中存入的所述音频文件是否达到预定数量，如达到预定数量则对所述音频文件进行声纹辨识，区分出用户声纹并一一编号存储到用户数据库。相对于现有技术，本发明实施例能够精准识别出用户身份，并记录用户使用习惯，为精准推送提供数据依据，实现智能化互动。

Description

一种基于声纹特征的多人声音分离方法、系统及智能终端

技术领域

本发明涉及智能识别技术领域，尤其涉及一种基于声纹特征的多人声音分离方法、系统及智能终端。

背景技术

智能音箱近两年日益盛行，据统计，美国家庭的使用率已超过3成，比当年智能手机的成长还快，这表示智能硬件的时代已来临，音箱除了听音乐，还可以问天气、听新闻、说故事、订机票、购物等等，使用越来越方便。

由于现在人机交互越来越频繁，智能音响也不例外，但在智能音箱的互动上存在一个技术问题，即多人使用同一音箱时无法确定谁在用，无法记录该用户爱听的音乐种类，也就无法做准确的推荐。比如说平常爱听的音听是什么，服务器无法分类，就无法推荐。

因此，目前的智能音箱在区分客户以及智能互动上还存在不足，还有待进一步改进。

发明内容

针对上述技术问题，本发明实施例提供了一种基于声纹特征的多人声音分离方法、系统及智能终端，以解决现有智能设备无法区分声音来源、缺乏互动的技术问题。

本发明实施例的第一方面提供一种基于声纹特征的多人声音分离方法，包括步骤：

获取若干用户音频源文件；

将所述音频源文件转换为pcm格式的音频文件；

按照预设步长和预设切割长度将所述pcm格式的音频文件切割成若干个语音单元；

对所述语音单元进行语音识别，从中识别是否包含唤醒词，如包含则将所述音频文件存入音频暂存区；

判断音频暂存区中存入的所述音频文件是否达到预定数量，如达到预定数量则对所述音频文件进行声纹辨识，区分出用户声纹并一一编号存储到用户数据库。

可选地，所述对所述音频文件进行声纹辨识的步骤具体还包括：

将网络地址和所述编号设定为用户ID，并将所述用户ID的特征值存入用户数据库。

可选地，所述对所述语音单元进行语音识别的步骤具体还包括：

将所述语音单元封装成网络传输格式文件，并根据语音识别端的格式要求打包并上传给语音识别端；

判断用户数据库中是否已存在用户声纹，如已存在则将本用户的唤醒数加一。

将所述语音单元上传给云端进行语音识别或者本地语音识别。

本发明实施例的第二方面提供一种基于声纹特征的多人声音分离系统，其特征在于，包括语音输入设备、服务器和语音识别端，其中，

所述语音输入设备用于获取若干用户音频源文件，将所述音频源文件转换为pcm格式的音频文件，以及按照预设步长和预设切割长度将所述pcm格式的音频文件切割成若干个语音单元；

所述服务器用于对所述语音单元进行语音识别，从中识别是否包含唤醒词，如包含则将所述音频文件存入音频暂存区；并判断音频暂存区中存入的所述音频文件是否达到预定数量，如达到预定数量指示所述语音识别端进行声纹识别；

所述语音识别端用于对所述音频文件进行声纹辨识，区分出用户声纹并一一编号，并将所述编号传输给服务器的用户数据库存储。

可选地，所述语音识别端为云端语音识别设备或本地语音识别设备。

可选地，所述服务器还包括用户标识单元，用于将语音输入设备的网络地址和所述编号设定为用户ID，并将所述用户ID的特征值存入用户数据库。

本发明实施例的第三方面提供一种智能终端，其特征在于，包括至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令程序，所述指令程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

可选地，所述智能终端为智能IOT设备。

本发明实施例提供的技术方案中，利用互联网中智能设备(如智能音箱)的唤醒词来做声纹识别，以分别出同音箱中不同的用户,并依此自动建立用户身份码(ID code)，因此相对于现有技术，本发明实施例能够精准识别出用户身份，并记录用户使用习惯，为精准推送提供数据依据，实现智能化互动。

附图说明

图1为本发明实施例中基于声纹特征的多人声音分离方法的一个实施例的流程图；

图2为本发明实施例中基于声纹特征的多人声音分离系统的一个实施例的结构框图；

图3为图2中服务器的一个实施例的组成框图；

图4为本发明实施例中基于声纹特征的多人声音分离系统的另一个实施例示意图；

图5本发明实施例中智能设备一个实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的主要思想是通过互联网中智能硬件(如智能音箱)的唤醒词来做声纹识别，以分别出同音箱中不同的用户，并依此自动建立用户身份码(ID code)。其中用到的技术包括网络通讯技术，声音处理技术，数据库建构维护技术。

请参阅图1，本发明实施例中基于声纹特征的多人声音分离方法一个实施例，包括步骤：

S1、获取若干用户音频源文件；

S2、将所述音频源文件转换为pcm格式的音频文件；

S3、按照预设步长和预设切割长度将所述pcm格式的音频文件切割成若干个语音单元；

S4、对所述语音单元进行语音识别，从中识别是否包含唤醒词，如包含则将所述音频文件存入音频暂存区；

S5、判断音频暂存区中存入的所述音频文件是否达到预定数量，如达到预定数量则对所述音频文件进行声纹辨识，区分出用户声纹并一一编号存储到用户数据库。

本发明实施例通过对用户语音中识别唤醒词的方式，来对用户声纹进行辨识，利用唤醒词做声纹辨识,有以下好处：1)在一开始使用智能硬件时没有声纹特征值，从智能硬件录入的声音，无法判断是否是同一人，而可能不同人不断的使用，累计了预定数量(如100条)语音都是同一人，就会失去判断多人使用的机会。2)唤醒词只会在一开始用，后面的命令语音不管多长都是同一唤醒词，不会累计过长的无用声音。3)唤醒词长度固定，内容固定(同一智能硬件同唤醒词，如小米音箱的“小爱同学”)，对声纹辨识的正确率会高很多，辨识的速度也会快很多。4)利用本发明的技术方法，唤醒词被确认是某个用户后，即可累计该用户的使用次数，将来为精准广告或使用收费等服务提供数据基础，以充分发挥大数据作用，提高服务精准度和服务质量。

在本实施例中，在对音频文件进行声纹辨识后，将网络地址和所述编号设定为用户ID，并将所述用户ID的特征值存入用户数据库，在后续使用时可以通过识别该特征值来区分用户ID，并对该用户进行后续服务的精准推送。通过声纹识别，本实施例能够精准的区别出用户来源，并能够采集用户的使用记录，如针对智能音箱，可以记录用户爱听的音乐种类，音乐风格等等，可以有针对性的对该用户进行精准推荐。

在本实施例中，对语音单元进行语音识别时，对将分割后的若干个语音单元一起封装成网络传输格式文件，以便网络传输。并且需要根据语音识别端的格式要求打包，上传或传输给语音识别端进行语音识别。本实施例的语音识别是对语音单元中的唤醒词进行识别，因此，在识别时会将语音单元的语音数据转换为文字数据，并比对是否含有唤醒词。

需要说明的是，首先，本实施例的唤醒词可以为系统设定，也可以由用户自行设定，设定的唤醒词尽量简短且有区分度。其次，本实施例的语音识别有两种方式，第一种是上传到专门的云端进行语音识别，如ASR云端(语音辨认云)；第二种是本地语音识别，通过本地专用的识别芯片或模块进行识别。当然，也可以集成两种语音识别模式，以应对不同的应用场景，而且还能够避免一方识别出错后通过另一方进行校正。

在本实施例中，识别完声纹后，需比对用户数据库，判断用户数据库中是否已存在用户声纹，如已存在则将本用户的唤醒数加一，以便累计用户使用次数。

通过上述实施例的基于声纹特征的多人声音分离方法，通过智能音箱的唤醒词来做声纹识别，以分别出同音箱中不同的用户，并依次自动建立用户身份码，解决了目前智能音箱互动上的问题，而且用户身份识别精准度高，辨识速度快。而且通过对用户使用次数的累计，也能够为大数据分析提供数据基础。

基于上述多人声音分离方法，本发明实施例的第二方面提供一种基于声纹特征的多人声音分离系统，如图2所示，包括语音输入设备1、服务器2和语音识别端3，其中，该语音输入设备1用于获取若干用户音频源文件，将该音频源文件转换为pcm格式的音频文件，以及按照预设步长和预设切割长度将该pcm格式的音频文件切割成若干个语音单元；该服务器2用于对该语音单元进行语音识别，从中识别是否包含唤醒词，如包含则将该音频文件存入音频暂存区；并判断音频暂存区中存入的该音频文件是否达到预定数量，如达到预定数量指示该语音识别端3进行声纹识别；该语音识别端3用于对该音频文件进行声纹辨识，区分出用户声纹并一一编号，并将该编号传输给服务器2的用户数据库存储。本实施例的预定数量由系统自行设定，如100条。

优选地，本实施例的语音识别端3为云端语音识别设备或本地语音识别设备，以便应对不同的识别环境和需求。

在本实施例中，如图3所示，服务器2还包括用户识别单元21，用于将语音输入设备的网络地址和编号设定为用户ID，并将所述用户ID的特征值存入用户数据库，以作为用户身份的标识。

下面再以一个云端语音识别的具体实施例进行描述说明。

如图4所示，本实施例的系统包括终端语音输入设备101、服务器102和ASR语音辨云端103，

终端语音输入设备101，如智能音箱：

a)获取音频源文件；

b)将音频源文件的格式转换为pcm格式的音频文件；

c)按照预设步长和预设切割长度将pcm格式的音频文件切割成若干个语音单元；

d)封包成网络传输格式文件；

e)上传文件到服务器102。

服务器102收到终端语音输入设备101传来的网络传输格式文件，处理如下：

a)根据不同ASR云端(语音辨认云)要求之格式打包，打包完后传给ASR语音辨云端103；

b)自ASR语音辨云端103收取辨认后的文字数据；

c)收到(b)中所述文字数据后，判断是否为唤醒词(如图示201)；

d)检查数据库中是否有该入设备的网路地址(如图示202)；

如果有表示是已存在的用户设备,比对声纹是否己存在：

若存在，将用户唤醒数加一(如图示402),存回用户数据库(将来可判别该用户的使用频率)；

若不存在，将暂存音文件到用户数据库(如图示301)；

图示302检查累计的声音文件是否已达100条，如果是就启动图示401做声纹辨认；

图示401声纹辨认辨认出不同声纹给予不同流水号；

将设备端网络地址与流水号存入图示403用户数据库，将来以此为检索关键字(Search key)。

当然，上述云端识别的实施例仅仅用于解释本发明系统的实施过程，并不用于限定，如果为本地语音识别，系统架构基本相同，方法相同。只是本地语音识别设备可以单独设置，也可以集成到本地终端设备中。

应当说明的是，上述实施例中提供的基于声纹特征的多人声音分离方法和多人声音分离系统均是基于相同的发明构思。因此，多人声音分离方法中各个具体实施例的步骤均可以由对应的功能模块所执行，功能模块中具体的功能也可以在所述多人声音分离系统中具有对应的方法步骤，在此不再赘述。

图5为本发明实施例提供的智能终端的硬件结构示意图，该设备包括：一个或多个处理器51以及存储器52。图5中以一个为例。其中，处理器51以及存储器52可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器52作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中浮动图层设计系统对应的程序指令/模块。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中多人声音分离系统。本实施例的智能终端优选为智能音箱，以解决现有智能音箱的互动问题。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据浮动图层设计系统的使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至浮动图层设计系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在本实施例中，智能终端优选为智能IOT(Internet of Things，物联网)设备，如基于物联网的音箱、手表、手机等等。

上述智能终端可执行本申请实施例所提供的系统或方法，具备执行该系统或方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的系统或方法。

并且，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于声纹特征的多人声音分离方法，其特征在于，包括步骤：

获取若干用户音频源文件；

将所述音频源文件转换为pcm格式的音频文件；

2.根据权利要求1所述的基于声纹特征的多人声音分离方法，其特征在于，所述对所述音频文件进行声纹辨识的步骤具体还包括：

3.根据权利要求1所述的基于声纹特征的多人声音分离方法，其特征在于，所述对所述语音单元进行语音识别的步骤具体还包括：

将所述语音单元封装成网络传输格式文件，并根据语音识别端的格式要求打包并上传给语音识别端。

4.根据权利要求1所述的基于声纹特征的多人声音分离方法，其特征在于，所述对所述音频文件进行声纹辨识的步骤具体还包括：

5.根据权利要求1所述的基于声纹特征的多人声音分离方法，其特征在于，所述对所述语音单元进行语音识别的步骤具体还包括：

6.一种基于声纹特征的多人声音分离系统，其特征在于，包括语音输入设备、服务器和语音识别端，其中，

7.根据权利要求6所述的基于声纹特征的多人声音分离系统，其特征在于，所述语音识别端为云端语音识别设备或本地语音识别设备。

8.根据权利要求6所述的基于声纹特征的多人声音分离系统，其特征在于，所述服务器还包括用户标识单元，用于将语音输入设备的网络地址和所述编号设定为用户ID，并将所述用户ID的特征值存入用户数据库。

9.一种智能终端，其特征在于，包括至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令程序，所述指令程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5任一项所述的方法。

10.根据权利要求9所述的智能终端，其特征在于，所述智能终端为智能IOT设备。