CN111627440A - 一种基于三维虚拟人物和语音识别实现交互的学习系统 - Google Patents

一种基于三维虚拟人物和语音识别实现交互的学习系统 Download PDF

Info

Publication number
CN111627440A
CN111627440A CN202010449154.4A CN202010449154A CN111627440A CN 111627440 A CN111627440 A CN 111627440A CN 202010449154 A CN202010449154 A CN 202010449154A CN 111627440 A CN111627440 A CN 111627440A
Authority
CN
China
Prior art keywords
module
voice recognition
interaction
cloud storage
storage platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010449154.4A
Other languages
English (en)
Inventor
王旭
宋日辉
张雷
廖庆春
曲乐
张旭东
汪广龙
杨曦
岳毅然
谭震超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Red Ship Technology Guangzhou Co ltd
Original Assignee
Red Ship Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Red Ship Technology Guangzhou Co ltd filed Critical Red Ship Technology Guangzhou Co ltd
Priority to CN202010449154.4A priority Critical patent/CN111627440A/zh
Publication of CN111627440A publication Critical patent/CN111627440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种基于三维虚拟人物和语音识别实现交互的学习系统,包括语音识别模块、三维动画模块、终端交互模块和云存储平台模块;终端交互模块分别与三维动画模块、语音识别模块电连接;语音识别模块分别与三维动画模块、云存储平台模块电连接;语音识别模块将终端交互模块输入的指令均转换为文字信号发送至云存储平台模块,云存储平台模块将文字信号对应的反馈信息发送至语音识别模块后转换为语音信号,并通过三维动画模块反馈至终端交互模块。系统能够根据用户的提问匹配反馈信息,并通过三维人像对反馈信息进行播放,使得交互更加接近真实的面对面交互,相比机器人交互更加人性化,交互体验的感觉更好,更能刺激用户对反馈信息的学习。

Description

一种基于三维虚拟人物和语音识别实现交互的学习系统
技术领域
本发明涉及信息分类领域,更具体地,涉及一种基于三维虚拟人物和语音识别实现交互的学习系统。
背景技术
传统上智能学习系统中,一般只会简单地提供学习材料如文字资料、音频或视频供学员阅读,而缺乏交互学习的问题,导致学员通过智能学习系统进行学习的积极性不高。
一方面,语音识别已经被运用到智能客服,导航,新闻播报,智能翻译等领域。另一方面,三维动画技术也逐渐被应用至新闻播报,公共服务等领域中。现阶段通过语音识别或三维建模实现的人机交互已经在某些领域得到应用,但在学习系统中应用的语音识别和三维建模只能实现简单的语音反馈,整体交互体验差。
发明内容
本发明为克服上述现有技术中学习系统的角度体验差的问题,提供一种基于三维虚拟人物和语音识别实现交互的学习系统,通过三维虚拟人与用户进行交流,体验感更好。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于三维虚拟人物和语音识别实现交互的学习系统,包括语音识别模块、三维动画模块、终端交互模块和云存储平台模块;所述终端交互模块分别与所述三维动画模块、所述语音识别模块电连接;所述语音识别模块分别与所述三维动画模块、所述云存储平台模块电连接;所述语音识别模块将所述终端交互模块输入的指令均转换为文字信号发送至所述云存储平台模块,所述云存储平台模块将文字信号对应的反馈信息发送至所述语音识别模块后转换为语音信号,并通过所述三维动画模块反馈至所述终端交互模块。
面向用户的终端交互模块向语音识别等模块提供语音指令等输入,语音识别模块向三维动画模块提供算法反馈,三维动画模块向终端交互模块反馈交互信息,实现用户与系统之间的交互学习。
优选的,所述终端交互模块包括输入单元和输出单元;所述输入单元包括音频输入单元、触控输入单元、键盘鼠标输入单元;所述输出单元包括屏幕显示单元、播放器单元。屏幕显示单元可以为液晶的显示屏,播放器单元可以为扬声器。用户通过输入单元输入指令。反馈信息转换的语音信号通过输出单元进行播放。
优选的,所述语音识别模块通过深度神经网络结合word2vec模型,实现模糊匹配。实现多种不同提问方法的模糊匹配,即使同一问题用不同的提问方式提出,也能够得到准确的答案。
优选的,所述语音识别模块通过网络通讯访问输入的语音数据,并通过API将语音数据转化为文本数据。利用人工智能的数据分析服务或其他智能化服务,通过自然语言处理的手段挖掘文本信息,通过与云存储平台模块的交互匹配最佳反馈信息。通过算法达到自学习的效果,通过长时间多次的交互,丰富扩充语料库,提升反馈的准确率。学习具体而言意为可以设定一个模型的更新周期,在一个周期内经过多次交互积累足够多的数据,结合当前语音识别模型以更新下一代模型,如现有的循环神经网络。与此同时,云存储平台的语料库也能得以丰富
优选的,所述三维动画模块结合人脸建模和关键骨骼点捕捉建立三维人像。三维动画模块将语音识别模块发来的语音结合三维人像的口型,且口型能够与声音匹配,具体的方法可见于申请号为CN201810199537.3的“一种虚拟人物语音与口型同步的建模与控制方法”。通过结合该专利所提及的方法,三维任务的语音和口型能够同步,提升交互的良好体验感。
优选的,所述云存储平台模块是一种DaaS的云交付模型,用于存储终端产生的交互相关数据。不同租户的云信任边界互不相交,且云访问权限机制受限,保证每个数据的安全性。此外,交互终端产生的大数据将会被保存在云数据库并为更精准的交互反馈提供数据支持。
优选的,所述终端交互模块与所述云存储平台模块电连接,所述云存储平台获取终端交互模块的用户个人数据和使用数据,并在云服务器端进行统计分析生成用户画像,用户画像可以反馈到终端设备,使得用户能够在平台的帮助下充分了解自身的情况,调动主观能动性,更好地进行交互过程,提高学习效果。
与现有技术相比,有益效果是:系统能够根据用户的提问匹配反馈信息,并通过三维人像对反馈信息进行播放,使得交互更加接近真实的面对面交互,相比机器人交互更加人性化,交互体验的感觉更好,更能刺激用户对反馈信息的学习。
附图说明
图1是本发明一种基于三维虚拟人物和语音识别实现交互的学习系统的模块图;
图2是本发明一种基于三维虚拟人物和语音识别实现交互的学习系统的信息传递图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例
如图1-2所示为一种基于三维虚拟人物和语音识别实现交互的学习系统的是实施例,包括语音识别模块、三维动画模块、终端交互模块和云存储平台模块;终端交互模块分别与三维动画模块、语音识别模块电连接;语音识别模块分别与三维动画模块、云存储平台模块电连接;语音识别模块将终端交互模块输入的指令均转换为文字信号发送至云存储平台模块,云存储平台模块将文字信号对应的反馈信息发送至语音识别模块后转换为语音信号,并通过三维动画模块反馈至终端交互模块。
具体的,终端交互模块包括输入单元和输出单元;输入单元包括音频输入单元、触控输入单元、键盘鼠标输入单元;输出单元包括屏幕显示单元、播放器单元。屏幕显示单元可以为液晶的显示屏,播放器单元可以为扬声器。
其中,语音识别模块通过深度神经网络结合word2vec模型,实现多种不同提问方法的模糊匹配,即使同一问题用不同的提问方式提出,也能够得到准确的答案。语音识别模块通过网络通讯访问输入的语音数据,并通过API将语音数据转化为文本数据。
具体的,三维动画模块结合人脸建模和关键骨骼点捕捉建立三维人像。三维动画模块将语音识别模块发来的语音结合三维人像的口型,且口型能够与声音匹配,具体的方法可见于申请号为CN201810199537.3的“一种虚拟人物语音与口型同步的建模与控制方法”。通过结合该专利所提及的方法,三维任务的语音和口型能够同步,提升交互的良好体验感。
另外的,云存储平台模块是一种DaaS的云交付模型,用于存储终端产生的交互相关数据。不同租户的云信任边界互不相交,且云访问权限机制受限,保证每个数据的安全性。此外,交互终端产生的大数据将会被保存在云数据库并为更精准的交互反馈提供数据支持。
终端交互模块与所述云存储平台模块电连接,云存储平台获取终端交互模块的用户个人数据和使用数据,并在云服务器端进行统计分析生成用户画像,用户画像可以反馈到终端设备。
本实施例的工作原理:面向用户的终端交互模块向语音识别等模块提供语音指令等输入,语音识别模块向三维动画模块提供算法反馈,三维动画模块向终端交互模块反馈交互信息,实现用户与系统之间的交互学习。
本实施例的有益效果:系统能够根据用户的提问匹配反馈信息,并通过三维人像对反馈信息进行播放,使得交互更加接近真实的面对面交互,相比机器人交互更加人性化,交互体验的感觉更好,通过科技带来的的交互体验变化和新鲜感,更能刺激用户对反馈信息进行学习。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于三维虚拟人物和语音识别实现交互的学习系统,包括语音识别模块、三维动画模块、终端交互模块和云存储平台模块;所述终端交互模块分别与所述三维动画模块、所述语音识别模块电连接;所述语音识别模块分别与所述三维动画模块、所述云存储平台模块电连接;所述语音识别模块将所述终端交互模块输入的指令均转换为文字信号发送至所述云存储平台模块,所述云存储平台模块将文字信号对应的反馈信息发送至所述语音识别模块后转换为语音信号,并通过所述三维动画模块反馈至所述终端交互模块。
2.根据权利要求1所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述终端交互模块包括输入单元和输出单元;所述输入单元包括音频输入单元、触控输入单元、键盘鼠标输入单元;所述输出单元包括屏幕显示单元、播放器单元。
3.根据权利要求1所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述语音识别模块通过深度神经网络结合word2vec模型,实现模糊匹配。
4.根据权利要求3所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述语音识别模块通过网络通讯访问输入的语音数据,并通过API将语音数据转化为文本数据。
5.根据权利要求1所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述三维动画模块结合人脸建模和关键骨骼点捕捉建立三维人像。
6.根据权利要求1所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述云存储平台模块是一种DaaS的云交付模型,用于存储终端产生的交互相关数据。
7.根据权利要求1-6任一所述的一种基于三维虚拟人物和语音识别实现交互的学习系统,其特征在于,所述终端交互模块与所述云存储平台模块电连接,所述云存储平台获取终端交互模块的用户个人数据和使用数据,并在云服务器端进行统计分析生成用户画像。
CN202010449154.4A 2020-05-25 2020-05-25 一种基于三维虚拟人物和语音识别实现交互的学习系统 Pending CN111627440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010449154.4A CN111627440A (zh) 2020-05-25 2020-05-25 一种基于三维虚拟人物和语音识别实现交互的学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010449154.4A CN111627440A (zh) 2020-05-25 2020-05-25 一种基于三维虚拟人物和语音识别实现交互的学习系统

Publications (1)

Publication Number Publication Date
CN111627440A true CN111627440A (zh) 2020-09-04

Family

ID=72259148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010449154.4A Pending CN111627440A (zh) 2020-05-25 2020-05-25 一种基于三维虚拟人物和语音识别实现交互的学习系统

Country Status (1)

Country Link
CN (1) CN111627440A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138160A (zh) * 2021-08-27 2022-03-04 苏州探寻文化科技有限公司 基于多模块与用户进行交互的学习设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536677A (zh) * 2015-01-20 2015-04-22 湖南化身科技有限公司 具有智能语音交互功能的三维数字人像
CN104575502A (zh) * 2014-11-25 2015-04-29 百度在线网络技术(北京)有限公司 智能玩具及智能玩具的语音交互方法
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
US20170011745A1 (en) * 2014-03-28 2017-01-12 Ratnakumar Navaratnam Virtual photorealistic digital actor system for remote service of customers
CN107248342A (zh) * 2017-07-07 2017-10-13 四川云图瑞科技有限公司 基于虚拟现实技术的三维互动教学系统
CN108231069A (zh) * 2017-08-30 2018-06-29 深圳乐动机器人有限公司 清洁机器人的语音控制方法、云服务器、清洁机器人及其存储介质
CN109377801A (zh) * 2018-09-13 2019-02-22 何艳玲 一种云-网-端架构下的人工智能学习终端系统及方法
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音系统
CN110298906A (zh) * 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
US10546409B1 (en) * 2018-08-07 2020-01-28 Adobe Inc. Animation production system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011745A1 (en) * 2014-03-28 2017-01-12 Ratnakumar Navaratnam Virtual photorealistic digital actor system for remote service of customers
CN104575502A (zh) * 2014-11-25 2015-04-29 百度在线网络技术(北京)有限公司 智能玩具及智能玩具的语音交互方法
CN104536677A (zh) * 2015-01-20 2015-04-22 湖南化身科技有限公司 具有智能语音交互功能的三维数字人像
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
CN107248342A (zh) * 2017-07-07 2017-10-13 四川云图瑞科技有限公司 基于虚拟现实技术的三维互动教学系统
CN108231069A (zh) * 2017-08-30 2018-06-29 深圳乐动机器人有限公司 清洁机器人的语音控制方法、云服务器、清洁机器人及其存储介质
US10546409B1 (en) * 2018-08-07 2020-01-28 Adobe Inc. Animation production system
CN109377801A (zh) * 2018-09-13 2019-02-22 何艳玲 一种云-网-端架构下的人工智能学习终端系统及方法
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音系统
CN110298906A (zh) * 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138160A (zh) * 2021-08-27 2022-03-04 苏州探寻文化科技有限公司 基于多模块与用户进行交互的学习设备

Similar Documents

Publication Publication Date Title
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
CN110033659B (zh) 一种远程教学互动方法、服务器、终端以及系统
CN106875764B (zh) 基于网络的虚拟现实外语学习系统及控制方法
CN110931042B (zh) 同声传译方法、装置、电子设备以及存储介质
CN113508369A (zh) 交流支持系统、交流支持方法、交流支持程序以及图像控制程序
CN111477049A (zh) 一种教育创新创业训练用智能化培训交互系统
CN204650422U (zh) 一种基于语言交互操控的移动智能玩具
KR102258234B1 (ko) 인공지능 가정교사 인터페이스가 적용된 맞춤형 학습 방법 및 시스템
CN108596784A (zh) 一种智能电网综合展示系统
CN115953521B (zh) 远程数字人渲染方法、装置及系统
CN110444087A (zh) 一种智能语言教学机器人
CN113257061A (zh) 虚拟教学方法、装置、电子设备及计算机可读介质
CN111627440A (zh) 一种基于三维虚拟人物和语音识别实现交互的学习系统
CN109886255A (zh) 一种具有面部情绪识别功能的智能互动教学系统
JP7130290B2 (ja) 情報抽出装置
Vinciarelli et al. Mobile Social Signal Processing: vision and research issues
CN213634902U (zh) 体感互动教育集成设备
KR102258235B1 (ko) 실감 콘텐츠가 적용된 인공지능 기반의 맞춤형 학습 방법 및 시스템
KR102232344B1 (ko) 빅데이터 및 인공지능 기반의 맞춤형 학습 방법 및 시스템
KR100367746B1 (ko) 인터넷을 이용한 대화형 통신 시스템 및 통신방법
Alrashidi Synergistic integration between internet of things and augmented reality technologies for deaf persons in e-learning platform
CN113961680A (zh) 基于人机交互的会话处理方法及装置、介质、电子设备
Yu et al. Application of psychological counseling system based on virtual reality technology in college students' psychological counseling
CN115689833B (zh) 基于多维感知和普适计算的智慧教学空间模式构建方法
CN117055724B (zh) 虚拟教学场景中生成式教学资源系统的工作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication