CN112786026B - 基于语音迁移学习的亲子故事个性化音频生成系统及方法 - Google Patents
基于语音迁移学习的亲子故事个性化音频生成系统及方法 Download PDFInfo
- Publication number
- CN112786026B CN112786026B CN202011622856.4A CN202011622856A CN112786026B CN 112786026 B CN112786026 B CN 112786026B CN 202011622856 A CN202011622856 A CN 202011622856A CN 112786026 B CN112786026 B CN 112786026B
- Authority
- CN
- China
- Prior art keywords
- user
- audio
- module
- data
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013526 transfer learning Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims description 9
- 238000013508 migration Methods 0.000 claims abstract description 59
- 230000005012 migration Effects 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 238000010367 cloning Methods 0.000 claims abstract description 13
- 238000013500 data storage Methods 0.000 claims abstract description 11
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000001737 promoting effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供基于语音迁移学习的亲子故事个性化音频生成系统,包括:音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,音频数据分别对应带有相应的用户标识;数据存储模块,用于根据用户标识,存储音频数据至对应用户标识的语音数据库中;数据处理模块,用于将语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;迁移训练模块,用于将数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;声音合成模块,用于将亲子故事\教学内容输入至迁移模型中,通过迁移模型合成基于用户个性化声音的故事\教学音频。
Description
技术领域
本发明设计自动语音识别技术中语音合成、个性化语音故事合成,尤其设计基于迁移学习的亲子讲故事声音克隆;主要用于亲子之间讲故事常用,促进孩子的学习兴趣。
背景技术
语音识别是通过语音信号处理和模式识别让计算机能够自动识别和理解人类的口述语,随着语音识别技术的不断提高,机器对于语音信号的识别准确率也极大提升。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音合成是计算机接收到的文字信息转变为可以听得懂的、流畅的口语输出的技术。端到端的语音合成,可以直接利用录音文本和对应的语音数据对,进行模型训练,而无需过多的专家知识和专业处理能力,大大降低了进入语音合成领域的门槛,极大的促进了语音合成技术的进步。
风格转换是最早来源于图像领域的概念,即:将一张图片的艺术风格应用到另外一张图片上。音频中的风格迁移,是通过设计模型结构,使得模型学习音频的声纹特征,从而将输入的音频声音特征迁移到种子模型中,合成基于用户声音的亲子讲故事音频集,为用户提供更优质的教育服务,提升孩子的学习兴趣,促进亲子情感和互动。
发明内容
本发明的目的在于提供基于迁移学习的亲子讲故事声音克隆系统,根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
本申请提供一种基于语音迁移学习的亲子故事个性化音频系统,包含以下模块:
音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
数据存储模块,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
数据处理模块,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
迁移训练模块,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
声音合成模块,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
由上,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
优选地,所述音频上传模块,包括:
匹配子模块,用于将用户输入用户名和密码与指定信息相匹配;
上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。
优选地,所述数据存储模块,包括:
查询子模块,用于根据所述用户标识,在音频数据库中查询所述用户标识对应的数据表;
存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中。
优选地,所述数据处理模块,包括:
下载子模块,用于将用户的音频数据从音频数据库下载;
预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理。
优选地,所述迁移训练模块,包括:
第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;
训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型。
优选地,所述声音合成模块,包括:
第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;
处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;
输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。
优选地,所述系统,还包括:
定时播放子模块,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
本申请还提供一种基于语音迁移学习的亲子故事个性化音频生成方法,基于前述的系统,包含以下处理步骤:
A、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
B、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
C、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
D、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
E、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
优选地,所述步骤E,之后还包括:
F、根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。
综上所述,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
附图说明
以下结合附图和具体实施方式对本申请做进一步详细说明;
图1为本申请提供的一种基于语音迁移学习的亲子故事系统结构示意图;
图2为一种基于语音迁移学习的亲子故事生成方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图对本申请进行说明。
实施例一
如图1所示,本申请提供一种基于语音迁移学习的亲子故事系统,包含以下模块:
音频上传模块101,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;具体的,所述音频上传模块,包括:匹配子模块,用于将用户输入用户名和密码与指定信息相匹配。上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。
数据存储模块102,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;具体的,所述数据存储模块,包括:查询子模块,用于根据所述用户标识,在音频数据库中查询所述用户标识对应的数据表。存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中。
数据处理模块103,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;具体的,所述数据处理模块,包括:下载子模块,用于将用户的音频数据从音频数据库下载;预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理。
迁移训练模块104,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;具体的,所述迁移训练模块,包括:第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型。
声音合成模块105,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。具体的,所述声音合成模块,包括:第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。
定时播放子模块106,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
综上所述,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
实施例二
本申请还提供一种基于语音迁移学习的亲子故事生成方法,基于实施例一所述的系统,包含以下处理步骤:
S201、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
S202、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
S203、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
S204、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
S205、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
S205、定时播放,包括:根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。
综上所述,本申请提供的一种基于语音迁移学习的亲子故事系统,通过用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
以上所述仅为本发明的典型实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于语音迁移学习的亲子故事个性化音频生成系统,其特征在于,包含以下模块:
音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
数据存储模块,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
数据处理模块,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
迁移训练模块,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
声音合成模块,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频;
所述音频上传模块,包括:
匹配子模块,用于将用户输入用户名和密码与指定信息相匹配;
上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器;
所述数据存储模块,包括:
查询子模块,用于根据所述用户标识,在语音数据库中查询所述用户标识对应的数据表;
存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中;
所述数据处理模块,包括:
下载子模块,用于将用户的音频数据从音频数据库下载;
预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理;
所述迁移训练模块,包括:
第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;
训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型;
所述声音合成模块,包括:
第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;
处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;
输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频;
还包括:
定时播放子模块,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
2.一种基于语音迁移学习的亲子故事个性化音频生成方法,基于权利要求1所述的系统,其特征在于,包含以下处理步骤:
A、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
B、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
C、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
D、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
E、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频;
F、定时播放,包括:根据指定时间定时播放所述基于用户个性化声音的故事\教学音频;
所述音频上传具体包括:将用户输入用户名和密码与指定信息相匹配,当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器;
所述数据存储具体包括:根据所述用户标识,在语音数据库中查询所述用户标识对应的数据表,将上传的音频数据存储至其对应的用户标识对应的数据表中;
所述数据处理具体包括:将用户的音频数据从语音数据库下载,将从语音数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理;
所述迁移训练具体包括:将经过所述预处理的音频数据作为训练数据,输入到训练模型中,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型;
所述声音合成具体包括:将亲子故事\教学的内容输入至所述迁移模型中,通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理,输出通处理后的基于用户个性化声音的故事\教学音频。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019114133834 | 2019-12-31 | ||
CN201911413383 | 2019-12-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786026A CN112786026A (zh) | 2021-05-11 |
CN112786026B true CN112786026B (zh) | 2024-05-07 |
Family
ID=75754402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011622856.4A Active CN112786026B (zh) | 2019-12-31 | 2020-12-31 | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786026B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743630B (zh) * | 2024-02-20 | 2024-04-26 | 卓世未来(天津)科技有限公司 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
CN107230397A (zh) * | 2017-07-26 | 2017-10-03 | 绮语(北京)文化传媒有限公司 | 一种亲子幼教用音频生成与处理方法与装置 |
CN108648763A (zh) * | 2018-04-04 | 2018-10-12 | 深圳大学 | 基于声学信道的个人计算机使用行为监测方法及系统 |
CN109065018A (zh) * | 2018-08-22 | 2018-12-21 | 北京光年无限科技有限公司 | 一种面向智能机器人的故事数据处理方法及系统 |
CN109346057A (zh) * | 2018-10-29 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 一种智能儿童玩具的语音处理系统 |
CN109616105A (zh) * | 2018-11-30 | 2019-04-12 | 江苏网进科技股份有限公司 | 一种基于迁移学习的带噪语音识别方法 |
CN110070855A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
CN110136689A (zh) * | 2019-04-02 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于迁移学习的歌声合成方法、装置及存储介质 |
CN110136687A (zh) * | 2019-05-20 | 2019-08-16 | 深圳市数字星河科技有限公司 | 一种基于语音训练克隆口音及声韵方法 |
KR102035088B1 (ko) * | 2018-12-31 | 2019-10-23 | 주식회사 이르테크 | 스토리텔링 기반 멀티미디어 무인 원격 1:1 맞춤형 교육시스템 |
CN110459208A (zh) * | 2019-09-09 | 2019-11-15 | 极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867489B (zh) * | 2015-04-27 | 2019-04-26 | 苏州大学张家港工业技术研究院 | 一种模拟真人朗读发音的方法及系统 |
US11062228B2 (en) * | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
CN106328139A (zh) * | 2016-09-14 | 2017-01-11 | 努比亚技术有限公司 | 一种语音交互的方法和系统 |
-
2020
- 2020-12-31 CN CN202011622856.4A patent/CN112786026B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107230397A (zh) * | 2017-07-26 | 2017-10-03 | 绮语(北京)文化传媒有限公司 | 一种亲子幼教用音频生成与处理方法与装置 |
CN110070855A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
CN108648763A (zh) * | 2018-04-04 | 2018-10-12 | 深圳大学 | 基于声学信道的个人计算机使用行为监测方法及系统 |
CN109065018A (zh) * | 2018-08-22 | 2018-12-21 | 北京光年无限科技有限公司 | 一种面向智能机器人的故事数据处理方法及系统 |
CN109346057A (zh) * | 2018-10-29 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 一种智能儿童玩具的语音处理系统 |
CN109616105A (zh) * | 2018-11-30 | 2019-04-12 | 江苏网进科技股份有限公司 | 一种基于迁移学习的带噪语音识别方法 |
KR102035088B1 (ko) * | 2018-12-31 | 2019-10-23 | 주식회사 이르테크 | 스토리텔링 기반 멀티미디어 무인 원격 1:1 맞춤형 교육시스템 |
CN110136689A (zh) * | 2019-04-02 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于迁移学习的歌声合成方法、装置及存储介质 |
CN110136687A (zh) * | 2019-05-20 | 2019-08-16 | 深圳市数字星河科技有限公司 | 一种基于语音训练克隆口音及声韵方法 |
CN110459208A (zh) * | 2019-09-09 | 2019-11-15 | 极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112786026A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200058288A1 (en) | Timbre-selectable human voice playback system, playback method thereof and computer-readable recording medium | |
CN109285537B (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
US20150006171A1 (en) | Method and Apparatus for Conducting Synthesized, Semi-Scripted, Improvisational Conversations | |
JP2016057986A (ja) | 音声翻訳装置、方法およびプログラム | |
CN107133303A (zh) | 用于输出信息的方法和装置 | |
JP2001159865A (ja) | 対話型語学指導のための方法および装置 | |
US9613616B2 (en) | Synthesizing an aggregate voice | |
CN116009748B (zh) | 儿童互动故事中图片信息交互方法及装置 | |
Wagner et al. | The big australian speech corpus (the big asc) | |
CN108986785B (zh) | 一种文本改编方法及装置 | |
Mirkin et al. | A recorded debating dataset | |
CN112185363A (zh) | 音频处理方法及装置 | |
CN112786026B (zh) | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 | |
KR100995847B1 (ko) | 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템 | |
Ahmed et al. | AusKidTalk: an auditory-visual corpus of 3-to 12-year-old Australian children's speech | |
CN116825123B (zh) | 一种基于音频推送的音质优化方法及系统 | |
CN108877795B (zh) | 用于呈现信息的方法和装置 | |
CN111105781A (zh) | 语音处理方法、装置、电子设备以及介质 | |
JP3930402B2 (ja) | オンライン教育システム、情報処理装置、情報提供方法及びプログラム | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 | |
Janokar et al. | Text-to-Speech and Speech-to-Text Converter—Voice Assistant | |
Shukla | Development of a human-AI teaming based mobile language learning solution for dual language learners in early and special educations | |
Kraleva | Design and development a children's speech database | |
US20240221738A1 (en) | Systems and methods for using silent speech in a user interaction system | |
Chettiar et al. | Impersonated Human Speech Chatbot with Adaptive Frequency Spectrum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |