CN109346057A - 一种智能儿童玩具的语音处理系统 - Google Patents

一种智能儿童玩具的语音处理系统 Download PDF

Info

Publication number
CN109346057A
CN109346057A CN201811267105.8A CN201811267105A CN109346057A CN 109346057 A CN109346057 A CN 109346057A CN 201811267105 A CN201811267105 A CN 201811267105A CN 109346057 A CN109346057 A CN 109346057A
Authority
CN
China
Prior art keywords
vocal print
user
server
processor
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811267105.8A
Other languages
English (en)
Inventor
熊宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co Ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co Ltd filed Critical Shenzhen Youjie Zhixin Technology Co Ltd
Priority to CN201811267105.8A priority Critical patent/CN109346057A/zh
Publication of CN109346057A publication Critical patent/CN109346057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种智能儿童玩具的语音处理系统,包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器;所述设备麦克风分别与声纹处理模型、处理器连接;所述本地存储分别与声纹处理模型、服务器连接;所述服务器分别与处理器、扬声器连接;本发明不需要对每一个多媒体文件都进行录音,只需要录制预设的语音文件进行提前声纹;通过声纹提取,语音合成技术,用户对着设备说出语音指令就可以调出带有自定义声纹的语音文件进行播放;减少对多媒体文件重复录音,方便用户需求,且增加趣味性,提高用户的阅读体验,建立了家长和幼儿的密切联系,更加贴切地实现了幼儿的早教与陪护。

Description

一种智能儿童玩具的语音处理系统
技术领域
本发明涉及语音处理技术领域,具体涉及一种智能儿童玩具的语音处理系统。
背景技术
现有的语音处理系统需要与服务器、终端之间进行配合:终端可以为父母使用的手机,则父母通过终端选择需要播放的文件进行录音后,上传到服务器,由服务器将该音频文件文件的访问地址发送至儿童故事机,并使得儿童故事机通过该访问地址实现音频文件的数据获取和播放。
CN107749296A提供一种语音翻译方法和装置,此发明实施例所提供的一种语音翻译方法,通过从原始语音信息中提取出原始声纹,再将翻译信息和原始声纹合成为最终语音信息,使得最终语音信息与原始语音信息的声纹相同,听起来好像对方用户自己说出了翻译后的语言,实现了原声翻译的效果,将人机对话提升为人与人的直接对话,提高了翻译语音的生动性和真实性。
可见现有的语音处理系统需要对每一个多媒体文件进行录音,这样不太方便。
发明内容
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种智能儿童玩具的语音处理系统,通过声纹识别算法模型提取声纹特征,对进行多媒体文件语音合成的智能儿童玩具的语音处理方法,方便用户需求,且增加趣味性,提高用户的阅读体验,建立了家长和幼儿的密切联系,更加贴切地实现了幼儿的早教与陪护。
本发明通过以下技术手段解决上述问题:
一种智能儿童玩具的语音处理系统,包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器;
所述设备麦克风分别与声纹处理模型、处理器连接;
所述本地存储分别与声纹处理模型、服务器连接;
所述服务器分别与处理器、扬声器连接;
通过软件对系统预设一个语音文本,当用户开启或连接系统时,系统发送一个语音文本信息给用户,用户对着设备麦克风读出此文本,录制一段语音;设备麦克风接收到录制的语音信息后,应用预先训练的声纹识别模型提取语音信息的声纹特征,进行分类标识,标上对应的角色关键词;将标识好的声纹上传到本地存储;用户对着设备麦克风输出关键词的语音指令,并上传到处理器;处理器将接收到的语音指令进行语音识别,并传送给服务器;服务器将接收到语音信息,找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹,得到无声纹的目标语音信息,得到无声纹的目标语音信息后,将本地存储内对应标识好的声纹进行合成,得到最终语音信息,并发送给扬声器进行播放。
进一步地,分类标识具体为:当用户录制的语音通过声纹识别模型进行相应的算法处理完成后,用户就会收到系统发送的通知选择对应的角色关键词,如:爸爸、妈妈、爷爷或奶奶,用于选择对应的关键词进行分类标识。
与现有技术相比,本发明的有益效果至少包括:
1、不需要对每一个多媒体文件都进行录音,只需要录制预设的语音文件进行提前声纹;
2、通过声纹提取,语音合成技术,用户对着设备说出语音指令就可以调出带有自定义声纹的语音文件进行播放;
3、减少对多媒体文件重复录音,方便用户需求,且增加趣味性,提高用户的阅读体验,建立了家长和幼儿的密切联系,更加贴切地实现了幼儿的早教与陪护。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明智能儿童玩具的语音处理系统的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种智能儿童玩具的语音处理系统,应用于智能语音设备、智能故事机、智能早教机、智能学习机等;包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器;
所述设备麦克风分别与声纹处理模型、处理器连接;
所述本地存储分别与声纹处理模型、服务器连接;
所述服务器分别与处理器、扬声器连接;
通过软件对系统预设一个语音文本,当用户开启或连接系统时,系统发送一个语音文本信息给用户,用户对着设备麦克风读出此文本,录制一段语音;设备麦克风接收到录制的语音信息后,应用预先训练的声纹识别模型提取语音信息的声纹特征,进行分类标识,标上对应的角色关键词;将标识好的声纹上传到本地存储;用户对着设备麦克风输出关键词的语音指令,并上传到处理器;处理器将接收到的语音指令进行语音识别,并传送给服务器;服务器将接收到语音信息,找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹,得到无声纹的目标语音信息,得到无声纹的目标语音信息后,将本地存储内对应标识好的声纹进行合成,得到最终语音信息,并发送给扬声器进行播放。
本发明智能儿童玩具的语音处理系统的具体工作过程如下:
1、通过软件对系统预设一个语音文本,当用户开启或连接上系统,系统就会发送一个语音文本信息给到用户,用户对着设备麦克风读出此文本,录制一段语音后发送给系统;
2、系统接收到设备麦克风传输的录制的语音信息,应用预先训练的声纹识别模型提取语音信息的声纹特征,进行分类标识,标上对应的关键词。如:爸爸、妈妈、爷爷或奶奶等;
具体地,当用户的录制的语音通过声纹识别模型进行相应的算法处理完成后,用户就会收到设备发送的通知选择对应的角色关键词,如:爸爸、妈妈、爷爷或奶奶等,用于选择对应的关键词进行分类标识;
3、系统将标识好的声纹上传到本地存储;
4、用户可以对着设备麦克风输出关键词的语音指令,如:"想听爸爸《讲十万个为什么》的故事",并上传到处理器;
5、处理器将接收到的语音指令进行语音识别,并传送给服务器;
6、服务器将接收到语音信息,找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹,得到无声纹的目标语音信息;
7、得到无声纹的目标语音信息后,将本地存储内对应标识好的声纹进行合成,得到最终语音信息,并发送给扬声器进行播放。
本发明可提取出声纹特征后,进行分类标识并且分配对应的关键词比如“爸爸”后,将此标识好的声纹信息上传到本地存储,可根据用户要求的关键词指令调取声纹特征值,与原始文本txt进行语音合成,将让语音变成真人说话,比如:小孩想听爸爸讲故事,只要说出"想听爸爸讲故事",设备就可以用爸爸的声音讲故事;小孩说出“想听妈妈唱歌”,设备就可以用妈妈的声音唱歌给孩子听。
与现有技术相比,本发明的有益效果至少包括:
1、不需要对每一个多媒体文件都进行录音,只需要录制预设的语音文件进行提前声纹;
2、通过声纹提取,语音合成技术,用户对着设备说出语音指令就可以调出带有自定义声纹的语音文件进行播放;
3、减少对多媒体文件重复录音,方便用户需求,且增加趣味性,提高用户的阅读体验,建立了家长和幼儿的密切联系,更加贴切地实现了幼儿的早教与陪护。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (2)

1.一种智能儿童玩具的语音处理系统,其特征在于,包括设备麦克风、声纹处理模型、本地存储、处理器、服务器和扬声器;
所述设备麦克风分别与声纹处理模型、处理器连接;
所述本地存储分别与声纹处理模型、服务器连接;
所述服务器分别与处理器、扬声器连接;
通过软件对系统预设一个语音文本,当用户开启或连接系统时,系统发送一个语音文本信息给用户,用户对着设备麦克风读出此文本,录制一段语音;设备麦克风接收到录制的语音信息后,应用预先训练的声纹识别模型提取语音信息的声纹特征,进行分类标识,标上对应的角色关键词;将标识好的声纹上传到本地存储;用户对着设备麦克风输出关键词的语音指令,并上传到处理器;处理器将接收到的语音指令进行语音识别,并传送给服务器;服务器将接收到语音信息,找到所要播放的音频文件并且通过声纹识别的模型进行剔除预设的声纹,得到无声纹的目标语音信息,得到无声纹的目标语音信息后,将本地存储内对应标识好的声纹进行合成,得到最终语音信息,并发送给扬声器进行播放。
2.根据权利要求1所述的智能儿童玩具的语音处理系统,其特征在于,分类标识具体为:当用户录制的语音通过声纹识别模型进行相应的算法处理完成后,用户就会收到系统发送的通知选择对应的角色关键词,如:爸爸、妈妈、爷爷或奶奶,用于选择对应的关键词进行分类标识。
CN201811267105.8A 2018-10-29 2018-10-29 一种智能儿童玩具的语音处理系统 Pending CN109346057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811267105.8A CN109346057A (zh) 2018-10-29 2018-10-29 一种智能儿童玩具的语音处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811267105.8A CN109346057A (zh) 2018-10-29 2018-10-29 一种智能儿童玩具的语音处理系统

Publications (1)

Publication Number Publication Date
CN109346057A true CN109346057A (zh) 2019-02-15

Family

ID=65310898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811267105.8A Pending CN109346057A (zh) 2018-10-29 2018-10-29 一种智能儿童玩具的语音处理系统

Country Status (1)

Country Link
CN (1) CN109346057A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534117A (zh) * 2019-09-10 2019-12-03 百度在线网络技术(北京)有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110648652A (zh) * 2019-11-07 2020-01-03 浙江如意实业有限公司 一种智能互动玩具
CN112289303A (zh) * 2019-07-09 2021-01-29 北京京东振世信息技术有限公司 合成语音数据的方法和装置
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN113436625A (zh) * 2021-06-25 2021-09-24 安徽淘云科技股份有限公司 一种人机交互方法及其相关设备
CN116453525A (zh) * 2023-06-08 2023-07-18 北京奇趣万物科技有限公司 一种音频导读自动生成方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162055A (ja) * 1999-12-14 2001-06-19 Sanyo:Kk 音声再生人形玩具
JP2013020030A (ja) * 2011-07-11 2013-01-31 Keshi Co Ltd 音声発生及び認識装置
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104290097A (zh) * 2014-08-19 2015-01-21 白劲实 一种学习型智能家庭社交机器人系统和方法
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN108305630A (zh) * 2018-02-01 2018-07-20 中科边缘智慧信息科技(苏州)有限公司 低带宽条件下的语言传输方法及语言传输系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162055A (ja) * 1999-12-14 2001-06-19 Sanyo:Kk 音声再生人形玩具
JP2013020030A (ja) * 2011-07-11 2013-01-31 Keshi Co Ltd 音声発生及び認識装置
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104290097A (zh) * 2014-08-19 2015-01-21 白劲实 一种学习型智能家庭社交机器人系统和方法
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN108305630A (zh) * 2018-02-01 2018-07-20 中科边缘智慧信息科技(苏州)有限公司 低带宽条件下的语言传输方法及语言传输系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289303A (zh) * 2019-07-09 2021-01-29 北京京东振世信息技术有限公司 合成语音数据的方法和装置
CN112289303B (zh) * 2019-07-09 2024-04-16 北京京东振世信息技术有限公司 合成语音数据的方法和装置
CN110534117A (zh) * 2019-09-10 2019-12-03 百度在线网络技术(北京)有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110534117B (zh) * 2019-09-10 2022-11-25 阿波罗智联(北京)科技有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110648652A (zh) * 2019-11-07 2020-01-03 浙江如意实业有限公司 一种智能互动玩具
CN110648652B (zh) * 2019-11-07 2021-10-01 浙江如意实业有限公司 一种智能互动玩具
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN113436625A (zh) * 2021-06-25 2021-09-24 安徽淘云科技股份有限公司 一种人机交互方法及其相关设备
CN116453525A (zh) * 2023-06-08 2023-07-18 北京奇趣万物科技有限公司 一种音频导读自动生成方法和系统
CN116453525B (zh) * 2023-06-08 2023-10-20 北京奇趣万物科技有限公司 一种音频导读自动生成方法和系统

Similar Documents

Publication Publication Date Title
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
US11475897B2 (en) Method and apparatus for response using voice matching user category
CN105304080B (zh) 语音合成装置及方法
US6775651B1 (en) Method of transcribing text from computer voice mail
US8478578B2 (en) Mobile speech-to-speech interpretation system
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
CN110049270A (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
US20160240215A1 (en) System and Method for Text-to-Speech Performance Evaluation
CN110473546B (zh) 一种媒体文件推荐方法及装置
CN105869626A (zh) 一种语速自动调节的方法及终端
CN102568478A (zh) 一种基于语音识别的视频播放控制方法和系统
CN105975569A (zh) 一种语音处理的方法及终端
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
JP2013164515A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN201919034U (zh) 基于网络的语音提醒的系统
CN111683317B (zh) 一种应用于耳机的提示方法、装置、终端及存储介质
CN111640434A (zh) 用于控制语音设备的方法和装置
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN111739536A (zh) 一种音频处理的方法和装置
CN108364638A (zh) 一种语音数据处理方法、装置、电子设备和存储介质
CN113345407B (zh) 一种风格语音合成方法、装置、电子设备及存储介质
CN102571882A (zh) 基于网络的语音提醒的方法和系统
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215