CN109346057A

CN109346057A - 一种智能儿童玩具的语音处理系统

Info

Publication number: CN109346057A
Application number: CN201811267105.8A
Authority: CN
Inventors: 熊宽
Original assignee: Shenzhen Youjie Zhixin Technology Co Ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co Ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-15

Abstract

本发明公开了一种智能儿童玩具的语音处理系统，包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器；所述设备麦克风分别与声纹处理模型、处理器连接；所述本地存储分别与声纹处理模型、服务器连接；所述服务器分别与处理器、扬声器连接；本发明不需要对每一个多媒体文件都进行录音，只需要录制预设的语音文件进行提前声纹；通过声纹提取，语音合成技术，用户对着设备说出语音指令就可以调出带有自定义声纹的语音文件进行播放；减少对多媒体文件重复录音，方便用户需求，且增加趣味性，提高用户的阅读体验，建立了家长和幼儿的密切联系，更加贴切地实现了幼儿的早教与陪护。

Description

一种智能儿童玩具的语音处理系统

技术领域

本发明涉及语音处理技术领域，具体涉及一种智能儿童玩具的语音处理系统。

背景技术

现有的语音处理系统需要与服务器、终端之间进行配合：终端可以为父母使用的手机，则父母通过终端选择需要播放的文件进行录音后，上传到服务器，由服务器将该音频文件文件的访问地址发送至儿童故事机，并使得儿童故事机通过该访问地址实现音频文件的数据获取和播放。

CN107749296A提供一种语音翻译方法和装置，此发明实施例所提供的一种语音翻译方法，通过从原始语音信息中提取出原始声纹，再将翻译信息和原始声纹合成为最终语音信息，使得最终语音信息与原始语音信息的声纹相同，听起来好像对方用户自己说出了翻译后的语言，实现了原声翻译的效果，将人机对话提升为人与人的直接对话，提高了翻译语音的生动性和真实性。

可见现有的语音处理系统需要对每一个多媒体文件进行录音，这样不太方便。

发明内容

有鉴于此，为了解决现有技术中的上述问题，本发明提出一种智能儿童玩具的语音处理系统，通过声纹识别算法模型提取声纹特征，对进行多媒体文件语音合成的智能儿童玩具的语音处理方法，方便用户需求，且增加趣味性，提高用户的阅读体验，建立了家长和幼儿的密切联系，更加贴切地实现了幼儿的早教与陪护。

本发明通过以下技术手段解决上述问题：

一种智能儿童玩具的语音处理系统，包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器；

所述设备麦克风分别与声纹处理模型、处理器连接；

所述本地存储分别与声纹处理模型、服务器连接；

所述服务器分别与处理器、扬声器连接；

通过软件对系统预设一个语音文本，当用户开启或连接系统时，系统发送一个语音文本信息给用户，用户对着设备麦克风读出此文本，录制一段语音；设备麦克风接收到录制的语音信息后，应用预先训练的声纹识别模型提取语音信息的声纹特征，进行分类标识，标上对应的角色关键词；将标识好的声纹上传到本地存储；用户对着设备麦克风输出关键词的语音指令，并上传到处理器；处理器将接收到的语音指令进行语音识别，并传送给服务器；服务器将接收到语音信息，找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹，得到无声纹的目标语音信息，得到无声纹的目标语音信息后，将本地存储内对应标识好的声纹进行合成，得到最终语音信息，并发送给扬声器进行播放。

进一步地，分类标识具体为：当用户录制的语音通过声纹识别模型进行相应的算法处理完成后，用户就会收到系统发送的通知选择对应的角色关键词，如：爸爸、妈妈、爷爷或奶奶，用于选择对应的关键词进行分类标识。

与现有技术相比，本发明的有益效果至少包括：

1、不需要对每一个多媒体文件都进行录音，只需要录制预设的语音文件进行提前声纹；

2、通过声纹提取，语音合成技术，用户对着设备说出语音指令就可以调出带有自定义声纹的语音文件进行播放；

3、减少对多媒体文件重复录音，方便用户需求，且增加趣味性，提高用户的阅读体验，建立了家长和幼儿的密切联系，更加贴切地实现了幼儿的早教与陪护。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明智能儿童玩具的语音处理系统的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种智能儿童玩具的语音处理系统，应用于智能语音设备、智能故事机、智能早教机、智能学习机等；包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器；

所述设备麦克风分别与声纹处理模型、处理器连接；

所述本地存储分别与声纹处理模型、服务器连接；

所述服务器分别与处理器、扬声器连接；

本发明智能儿童玩具的语音处理系统的具体工作过程如下：

1、通过软件对系统预设一个语音文本，当用户开启或连接上系统，系统就会发送一个语音文本信息给到用户，用户对着设备麦克风读出此文本，录制一段语音后发送给系统；

2、系统接收到设备麦克风传输的录制的语音信息，应用预先训练的声纹识别模型提取语音信息的声纹特征，进行分类标识，标上对应的关键词。如：爸爸、妈妈、爷爷或奶奶等；

具体地，当用户的录制的语音通过声纹识别模型进行相应的算法处理完成后，用户就会收到设备发送的通知选择对应的角色关键词，如：爸爸、妈妈、爷爷或奶奶等，用于选择对应的关键词进行分类标识；

3、系统将标识好的声纹上传到本地存储；

4、用户可以对着设备麦克风输出关键词的语音指令，如："想听爸爸《讲十万个为什么》的故事"，并上传到处理器；

5、处理器将接收到的语音指令进行语音识别，并传送给服务器；

6、服务器将接收到语音信息，找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹，得到无声纹的目标语音信息；

7、得到无声纹的目标语音信息后，将本地存储内对应标识好的声纹进行合成，得到最终语音信息，并发送给扬声器进行播放。

本发明可提取出声纹特征后，进行分类标识并且分配对应的关键词比如“爸爸”后，将此标识好的声纹信息上传到本地存储，可根据用户要求的关键词指令调取声纹特征值，与原始文本txt进行语音合成，将让语音变成真人说话，比如：小孩想听爸爸讲故事，只要说出"想听爸爸讲故事"，设备就可以用爸爸的声音讲故事；小孩说出“想听妈妈唱歌”，设备就可以用妈妈的声音唱歌给孩子听。

与现有技术相比，本发明的有益效果至少包括：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种智能儿童玩具的语音处理系统，其特征在于，包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器；

所述设备麦克风分别与声纹处理模型、处理器连接；

所述本地存储分别与声纹处理模型、服务器连接；

所述服务器分别与处理器、扬声器连接；

2.根据权利要求1所述的智能儿童玩具的语音处理系统，其特征在于，分类标识具体为：当用户录制的语音通过声纹识别模型进行相应的算法处理完成后，用户就会收到系统发送的通知选择对应的角色关键词，如：爸爸、妈妈、爷爷或奶奶，用于选择对应的关键词进行分类标识。