CN107578004A - 基于图像识别和语音交互的学习方法及系统 - Google Patents
基于图像识别和语音交互的学习方法及系统 Download PDFInfo
- Publication number
- CN107578004A CN107578004A CN201710764473.2A CN201710764473A CN107578004A CN 107578004 A CN107578004 A CN 107578004A CN 201710764473 A CN201710764473 A CN 201710764473A CN 107578004 A CN107578004 A CN 107578004A
- Authority
- CN
- China
- Prior art keywords
- mobile terminal
- voice
- module
- text
- server end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于图像识别和语音交互的学习方法及系统,包括:用户通过移动终端拍照或在移动终端中选择一张图片上传至服务器端;服务器端的图像识别模块接收移动终端发来的图片,并将图片处理成至少一条文本推送至移动终端;用户选择其中一条文本或自己推荐一条文本,移动终端自动将该文本发送至服务器端的语音合成模块,语音合成模块接收移动终端发来的文本,并将文件处理合成为音频数据反馈至移动终端;移动终端接收音频数据供用户学习;用户根据音频数据进行跟读,并通过移动终端录音发送至服务器端的语音识别模块;所述语音识别模块接收移动终端发送来的录音,对录音进行分析并给出评价反馈至移动终端,达到随时随地进行拍照学习的目的。
Description
技术领域
本发明涉及图像识别及语音交互领域,具体涉及一种基于图像识别和语音交互的学习系统及方法。
背景技术
习主席说,建设“人人皆学、处处能学、时时可学”的学习型社会。坚持不懈推进教育信息化,努力以信息化为手段扩大优质教育资源覆盖面。我们将通过教育信息化,逐步缩小区域、城乡数字差距,大力促进教育公平,让亿万孩子同在蓝天下共享优质教育、通过知识改变命运。
现有技术中,语音合成技术、在线录音技术、语音识别技术,都已经是相对成熟的技术,但是现有技术中还存在很多不足,例如:学生在学习中,学习内容都是教材规定好的,无法自动生成教学内容,对任意内容自动生成图文声音并茂的教学内容,并辅导使用者进行外语学习和练习的产品还没有。
发明内容
为解决上述技术问题,本发明提出了一种基于图像识别和语音交互的学习方法及系统,以达到随时随地进行拍照学习的目的。
为达到上述目的,本发明的技术方案如下:基于图像识别和语音交互的学习方法,包括:用户通过移动终端拍照或在移动终端中选择一张图片上传至服务器端;服务器端的图像识别模块接收移动终端发来的图片,并将图片处理成至少一条文本推送至移动终端;用户选择其中一条文本或自己推荐一条文本,移动终端自动将该文本发送至服务器端的语音合成模块,所述语音合成模块接收移动终端发来的文本,并将文件处理合成为音频数据反馈至移动终端;移动终端接收音频数据供用户学习;用户根据音频数据进行跟读,并通过移动终端录音发送至服务器端的语音识别模块;所述语音识别模块接收移动终端发送来的录音,对录音进行分析并给出评价反馈至移动终端。
作为优选的,所述图像识别模块采用TensorFlow程序对图片进行处理,TensorFlow利用训练好的模型进行预测得到推荐文本。
作为优选的,所述语音合成模块根据预先设置的语法知识库和语法字典对文本进行分析;将分析后的文本训练,生成有韵律的神经网络;结合预先设置的语音语料库生成音频数据。
作为优选的,所述语音识别模块分析待识别的语音,得到语音参数,将所述语音参数与语音识别库中的语音模板进行一一比较,并采用判决的方法找出最接近该语音参数的模板,得出识别结果并评分。
作为优选的,所述语音参数比较的标准是计量语音特征参数矢量之间的失真测度。
基于图像识别和语音交互的学习系统,其特征在于,包括:移动终端和服务器端,所述移动终端与所述服务器端通过网络进行连接,
所述移动终端,包括:采集模块、语音处理模块、显示操作模块和存储模块,所述采集模块,用于对物体进行图像采集,并将采集到的图像发送至服务器端;所述语音处理模块,用于接收服务器端生成的音频数据和为用户录音并将录音发送至服务器端;所述显示模块,用于显示服务器端反馈的文字信息以及对系统进行相应操作的按键;所述存储模块,用于存储采集到的图像、服务器生成的音频数据以及用户的录音;
所述服务器端,包括:图像识别模块、语音合成模块、语音识别模块和存储模块,所述图像识别模块,用于接收移动终端发来的图片,并根据图片内容将图片信息转化成推荐文本反馈至移动终端;所述语音合成模块,用于接收移动终端发送来的推荐文本,并根据所述推荐文本的内容生成相应的音频数据,将所述音频数据反馈到所述移动终端,所述语音识别模块,用于接收移动终端发来的录音,并对所述录音进行识别以及对所述英文语音信息做出评价,将评价内容反馈到移动终端供用户查看;所述存储模块,用于存储用户信息、音频数据以及用户的录音。
作为优选的,所述图像识别模块实用GPU服务器,利用大量的模型学习图片,再使用集束算法进行筛选图片反馈结果。
作为优选的,所述语音合成模块采用TTS内核,所述TTS内核的发声引擎小,不需要大量的声音文件支持。
作为优选的,所述语音识别模块的识别框架采用基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法。
本发明具有如下优点:
(1).本发明利用移动终端进行图像采集,再通过服务器端生成文本、语音以及对用户录音的评分,达到随时随地进行拍照学习的目的。
(2).本发明利用语音合成模块将文本合成音频数据供用户学习,可以从听力的角度拓展学习。
(3).本发明利用语音识别模块对用户的录音进行评分,直观精确的让用户了解自身的学习情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例公开的基于图像识别和语音交互的学习系统功能模块图;
图2为本发明实施例公开的语音合成流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于图像识别和语音交互的学习方法及系统,其工作原理是通过移动终端进行图像采集,再通过服务器端生成文本、语音以及对用户录音的评分,达到随时随地进行拍照学习的目的。
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
如图1和图2所示,基于图像识别和语音交互的学习方法,包括:用户通过移动终端拍照或在移动终端中选择一张图片上传至服务器端;服务器端的图像识别模块接收移动终端发来的图片,并将图片处理成多条英文文本推送至移动终端;用户选择其中一条英文文本或自己推荐一条英文文本,移动终端自动将该英文文本发送至服务器端的语音合成模块,所述语音合成模块接收移动终端发来的英文文本,并将英文文件处理合成为英文音频数据反馈至移动终端;移动终端接收英文音频数据供用户学习;用户根据英文音频数据进行跟读,并通过移动终端录音发送至服务器端的语音识别模块;所述语音识别模块接收移动终端发送来的录音,对录音进行分析并给出评价反馈至移动终端。
其中,所述图像识别模块采用TensorFlow程序对图片进行处理,TensorFlow利用训练好的模型进行预测得到推荐文本,TensorFlow通过read_data_sets方法对引用数据进行封装,然后读取这些划分好的数据集,再通过next_batch来获取一小批的训练数据,在利用梯度下降算法时需要在所有的训练数据上计算梯度,随机选取一部分训练数据集,提供到神经网络的输入层,然后通过反向迭代方法去优化这个神经网络。
其中,所述语音合成模块根据预先设置的语法知识库和语法字典对文本进行分析;将分析后的文本训练,生成有韵律的神经网络;结合预先设置的语音语料库生成音频数据。
其中,所述语音识别模块分析待识别的语音,得到语音参数,将所述语音参数与语音识别库中的语音模板进行一一比较,并采用判决的方法找出最接近该语音参数的模板,得出识别结果并评分。
其中,所述语音参数比较的标准是计量语音特征参数矢量之间的失真测度。
基于图像识别和语音交互的学习系统,包括:移动终端和服务器端,所述移动终端与所述服务器端通过网络进行连接,
所述移动终端,包括:采集模块、语音处理模块、显示操作模块和存储模块,所述采集模块,用于对物体进行图像采集,并将采集到的图像发送至服务器端;所述语音处理模块,用于接收服务器端生成的音频数据和为用户录音并将录音发送至服务器端;所述显示模块,用于显示服务器端反馈的文字信息以及对系统进行相应操作的按键;所述存储模块,用于存储采集到的图像、服务器生成的音频数据以及用户的录音;
所述服务器端,包括:图像识别模块、语音合成模块、语音识别模块和存储模块,所述图像识别模块,用于接收移动终端发来的图片,并根据图片内容将图片信息转化成推荐文本反馈至移动终端;所述语音合成模块,用于接收移动终端发送来的推荐文本,并根据所述推荐文本的内容生成相应的音频数据,将所述音频数据反馈到所述移动终端,所述语音识别模块,用于接收移动终端发来的录音,并对所述录音进行识别以及对所述英文语音信息做出评价,将评价内容反馈到移动终端供用户查看;所述存储模块,用于存储用户信息、音频数据以及用户的录音。
其中,所述图像识别模块实用GPU服务器,利用大量的模型学习图片,再使用集束算法进行筛选图片反馈结果。
其中,所述语音合成模块采用TTS内核,所述TTS内核的发声引擎小,不需要大量的声音文件支持。
其中,所述语音识别模块的识别框架采用基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法。
以上所述的仅是本发明所公开的基于图像识别和语音交互的学习系统及方法的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种基于图像识别和语音交互的学习方法,其特征在于,包括:用户通过移动终端拍照或在移动终端中选择一张图片上传至服务器端;服务器端的图像识别模块接收移动终端发来的图片,并将图片处理成至少一条文本推送至移动终端;用户选择其中一条文本或自己推荐一条文本,移动终端自动将该文本发送至服务器端的语音合成模块,所述语音合成模块接收移动终端发来的文本,并将文件处理合成为音频数据反馈至移动终端;移动终端接收音频数据供用户学习;用户根据音频数据进行跟读,并通过移动终端录音发送至服务器端的语音识别模块;所述语音识别模块接收移动终端发送来的录音,对录音进行分析并给出评价反馈至移动终端。
2.根据权利要求1所述的基于图像识别和语音交互的学习方法,其特征在于,所述图像识别模块采用TensorFlow程序对图片进行处理,TensorFlow利用训练好的模型进行预测得到推荐文本。
3.根据权利要求1所述的基于图像识别和语音交互的学习方法,其特征在于,所述语音合成模块根据预先设置的语法知识库和语法字典对文本进行分析;将分析后的文本训练,生成有韵律的神经网络;结合预先设置的语音语料库生成音频数据。
4.根据权利要求1所述的基于图像识别和语音交互的学习方法,其特征在于,所述语音识别模块分析待识别的语音,得到语音参数,将所述语音参数与语音识别库中的语音模板进行一一比较,并采用判决的方法找出最接近该语音参数的模板,得出识别结果并评分。
5.根据权利要求4所述的基于图像识别和语音交互的学习方法,其特征在于,所述语音参数比较的标准是计量语音特征参数矢量之间的失真测度。
6.一种基于图像识别和语音交互的学习系统,其特征在于,包括:移动终端和服务器端,所述移动终端与所述服务器端通过网络进行连接,
所述移动终端,包括:采集模块、语音处理模块、显示操作模块和存储模块,所述采集模块,用于对物体进行图像采集,并将采集到的图像发送至服务器端;所述语音处理模块,用于接收服务器端生成的音频数据和为用户录音并将录音发送至服务器端;所述显示模块,用于显示服务器端反馈的文字信息以及对系统进行相应操作的按键;所述存储模块,用于存储采集到的图像、服务器生成的音频数据以及用户的录音;
所述服务器端,包括:图像识别模块、语音合成模块、语音识别模块和存储模块,所述图像识别模块,用于接收移动终端发来的图片,并根据图片内容将图片信息转化成推荐文本反馈至移动终端;所述语音合成模块,用于接收移动终端发送来的推荐文本,并根据所述推荐文本的内容生成相应的音频数据,将所述音频数据反馈到所述移动终端,所述语音识别模块,用于接收移动终端发来的录音,并对所述录音进行识别以及对所述英文语音信息做出评价,将评价内容反馈到移动终端供用户查看;所述存储模块,用于存储用户信息、音频数据以及用户的录音。
7.根据权利要求6所述的基于图像识别和语音交互的学习系统,其特征在于,所述图像识别模块实用GPU服务器,利用大量的模型学习图片,再使用集束算法进行筛选图片反馈结果。
8.根据权利要求6所述的基于图像识别和语音交互的学习系统,其特征在于,所述语音合成模块采用TTS内核,所述TTS内核的发声引擎小,不需要大量的声音文件支持。
9.根据权利要求6所述的基于图像识别和语音交互的学习系统,其特征在于,所述语音识别模块的识别框架采用基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764473.2A CN107578004A (zh) | 2017-08-30 | 2017-08-30 | 基于图像识别和语音交互的学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764473.2A CN107578004A (zh) | 2017-08-30 | 2017-08-30 | 基于图像识别和语音交互的学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107578004A true CN107578004A (zh) | 2018-01-12 |
Family
ID=61030272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710764473.2A Pending CN107578004A (zh) | 2017-08-30 | 2017-08-30 | 基于图像识别和语音交互的学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107578004A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877334A (zh) * | 2018-06-12 | 2018-11-23 | 广东小天才科技有限公司 | 一种语音搜题方法及电子设备 |
CN109410984A (zh) * | 2018-12-20 | 2019-03-01 | 广东小天才科技有限公司 | 一种朗读评分的方法及电子设备 |
CN110299036A (zh) * | 2019-06-25 | 2019-10-01 | 百度在线网络技术(北京)有限公司 | 交互阅读方法、装置、系统及存储介质 |
CN111429880A (zh) * | 2020-03-04 | 2020-07-17 | 苏州驰声信息科技有限公司 | 一种切割段落音频的方法、系统、装置、介质 |
CN112309183A (zh) * | 2020-11-12 | 2021-02-02 | 江苏经贸职业技术学院 | 适用于外语教学的交互式听说练习系统 |
CN112507294A (zh) * | 2020-10-23 | 2021-03-16 | 重庆交通大学 | 一种基于人机交互的英语教学系统及教学方法 |
CN112885327A (zh) * | 2021-01-21 | 2021-06-01 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN114093221A (zh) * | 2020-08-24 | 2022-02-25 | 赵凯 | 一种创建口语测评练习的平台系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030100371A1 (en) * | 2001-11-23 | 2003-05-29 | Cyberscan Technology, Inc. | Modular entertainment and gaming system configured for processing raw biometric data and multimedia response by a remote server |
CN101145283A (zh) * | 2006-09-12 | 2008-03-19 | 董明 | 具有发音质量评价的嵌入式语言教学机 |
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
CN106203490A (zh) * | 2016-06-30 | 2016-12-07 | 江苏大学 | 一种安卓平台下基于属性学习和交互反馈的图像在线识别、检索方法 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
-
2017
- 2017-08-30 CN CN201710764473.2A patent/CN107578004A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030100371A1 (en) * | 2001-11-23 | 2003-05-29 | Cyberscan Technology, Inc. | Modular entertainment and gaming system configured for processing raw biometric data and multimedia response by a remote server |
CN101145283A (zh) * | 2006-09-12 | 2008-03-19 | 董明 | 具有发音质量评价的嵌入式语言教学机 |
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
CN106203490A (zh) * | 2016-06-30 | 2016-12-07 | 江苏大学 | 一种安卓平台下基于属性学习和交互反馈的图像在线识别、检索方法 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877334A (zh) * | 2018-06-12 | 2018-11-23 | 广东小天才科技有限公司 | 一种语音搜题方法及电子设备 |
CN108877334B (zh) * | 2018-06-12 | 2021-03-12 | 广东小天才科技有限公司 | 一种语音搜题方法及电子设备 |
CN109410984A (zh) * | 2018-12-20 | 2019-03-01 | 广东小天才科技有限公司 | 一种朗读评分的方法及电子设备 |
CN109410984B (zh) * | 2018-12-20 | 2022-12-27 | 广东小天才科技有限公司 | 一种朗读评分的方法及电子设备 |
CN110299036A (zh) * | 2019-06-25 | 2019-10-01 | 百度在线网络技术(北京)有限公司 | 交互阅读方法、装置、系统及存储介质 |
CN111429880A (zh) * | 2020-03-04 | 2020-07-17 | 苏州驰声信息科技有限公司 | 一种切割段落音频的方法、系统、装置、介质 |
CN114093221A (zh) * | 2020-08-24 | 2022-02-25 | 赵凯 | 一种创建口语测评练习的平台系统 |
CN112507294A (zh) * | 2020-10-23 | 2021-03-16 | 重庆交通大学 | 一种基于人机交互的英语教学系统及教学方法 |
CN112309183A (zh) * | 2020-11-12 | 2021-02-02 | 江苏经贸职业技术学院 | 适用于外语教学的交互式听说练习系统 |
CN112885327A (zh) * | 2021-01-21 | 2021-06-01 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578004A (zh) | 基于图像识别和语音交互的学习方法及系统 | |
CN110600033B (zh) | 学习情况的评估方法、装置、存储介质及电子设备 | |
CN109801193A (zh) | 一种具有语音评价功能的跟随教学系统 | |
CN109940627A (zh) | 一种面向绘本阅读机器人的人机交互方法和系统 | |
CN107316638A (zh) | 一种诗词背诵评测方法及系统、一种终端及存储介质 | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN106251859A (zh) | 语音识别处理方法和装置 | |
CN103594087B (zh) | 提高口语评测性能的方法及系统 | |
CN105096933B (zh) | 分词词典的生成方法和装置及语音合成方法和装置 | |
CN109584648A (zh) | 数据生成方法及装置 | |
CN110648690A (zh) | 一种音频评测方法及服务器 | |
CN111651497B (zh) | 用户标签挖掘方法、装置、存储介质及电子设备 | |
CN104021326B (zh) | 一种外语教学方法与外语教具 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN107436921A (zh) | 视频数据处理方法、装置、设备及存储介质 | |
CN108231066A (zh) | 语音识别系统及其方法与词汇建立方法 | |
CN104505103B (zh) | 语音质量评价设备、方法和系统 | |
CN110223678A (zh) | 语音识别方法及系统 | |
CN109255130A (zh) | 一种基于人工智能的语言翻译和学习的方法、系统和设备 | |
CN110245253A (zh) | 一种基于环境信息的语义交互方法及系统 | |
US10380912B2 (en) | Language learning system with automated user created content to mimic native language acquisition processes | |
CN108090098A (zh) | 一种文本处理方法及装置 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
Chirkova et al. | Simulating vowel chain shift in Xumi | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180112 |
|
RJ01 | Rejection of invention patent application after publication |