CN106713899A - 基于全息成像和语音识别的交互三维立体影像系统及方法 - Google Patents

基于全息成像和语音识别的交互三维立体影像系统及方法 Download PDF

Info

Publication number
CN106713899A
CN106713899A CN201710137312.0A CN201710137312A CN106713899A CN 106713899 A CN106713899 A CN 106713899A CN 201710137312 A CN201710137312 A CN 201710137312A CN 106713899 A CN106713899 A CN 106713899A
Authority
CN
China
Prior art keywords
crowd
database
speech recognition
computer control
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710137312.0A
Other languages
English (en)
Other versions
CN106713899B (zh
Inventor
燕小成
吕蕾
吴艳娜
周栋梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Center Information Technology Ltd By Share Ltd
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201710137312.0A priority Critical patent/CN106713899B/zh
Publication of CN106713899A publication Critical patent/CN106713899A/zh
Application granted granted Critical
Publication of CN106713899B publication Critical patent/CN106713899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Holo Graphy (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于全息成像和语音识别的交互三维立体影像系统及方法,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。本发明使得360°全息成像系统可进行人机交互,使用更加灵活,实用性大大增强。

Description

基于全息成像和语音识别的交互三维立体影像系统及方法
技术领域
本发明涉及立体影像技术领域,特别是涉及基于全息成像和语音识别的交互三维立体影像系统及方法。
背景技术
360°全息成像技术(360-degree holographic imaging)是一种新兴的3D技术,也可简单称为全息或360全息。此技术根据光的反射原理,配合人眼的视觉误差,进行集成制作出多角度、全方位的360°立体悬浮影像。可将成像独立展示,也可与实物相结合。
目前,以360°全息成像技术(360-degree holographic imaging)为基础的360°全息成像系统主要由光学成像系统、计算机控制系统、影视播放系统和音响系统组成。就国内发展状况看,360°全息成像系统应用场景只是进行科技展览(科技馆的展示),并未得到大量的实际应用。可进行人机交互的360°全息成像系统也不存在。
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果。当前的语音识别在模型库进行匹配时,现有的搜索算法为利用语音学与语言学信息,把输入的语音特征向量序列X=X1,X2,……,XT转化成词序列W=W1,W2,…,WN并输出。
现有的360°全息成像系统和语音识别技术存在以下缺点:
1、360°全息成像系统无法实现人机交互。
2、360°全息成像系统需要用户自主处理适合360°全息成像系统的视频源。
3.360°全息成像系统的语音识别精度不佳。
综上所述,现有技术中对于360°全息成像系统所存在的人机交互及使用不便等的问题,尚缺乏有效的解决方案。
发明内容
为了解决现有技术的不足,本发明提供了基于全息成像和语音识别的交互三维立体影像系统,将语音识别应用于360°全息成像系统以达到人机交互的目的。开发相关配套软件,对语音识别与360°全息成像系统进行实时控制,并能自动处理适合360°全息成像系统的视频源。采用“定向使用人群”的语音识别技术来提高语音识别的精准度。
基于全息成像和语音识别的交互三维立体影像系统,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。
进一步的,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。
进一步的,所述语音识别模块在实现语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。
进一步的,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于设定值(例如10%),计算机控制系统则认为人群定向正确。
进一步的,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。
进一步的,所述计算机控制系统中还包括视频源处理模块,视频源处理模块通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。播放器的视频组件用于支持JMF播放器对视频的播放,播放器的控制组件实现对视频播放行为的控制。
进一步的,本发明还公开了基于360°全息成像和语音识别的交互式三维立体影像系统的实现方法,包括:
计算机控制系统实现对语音识别,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别;
影像播放与音响系统用于对计算机控制系统的画面与声音的输出;
光学成像系统用于实现对计算机控制系统的三维立体画面的展示。
进一步的,计算机控制系统实现对语音识别时,首先建立数据库,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。
进一步的,计算机控制系统实现对语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。
进一步的,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于设定值(例如10%),计算机控制系统则认为人群定向正确。
进一步的,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。
进一步的,计算机控制系统实现对视频源处理,视频源处理通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。
与现有技术相比,本发明的有益效果是:
1、使得360°全息成像系统可进行人机交互,使用更加灵活,实用性大大增强。
2、优化语音识别速度,提高了用户体验。
3、为产品提供的配套软件,使得非专业人士不经培训便可应用,使用难度降低,普及也相对容易。
4、交互式3维立体影像系统不再是专业设备,娱乐家居亦可使用。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1交互式3维立体影像系统构成图;
图2改进后的语音识别过程图;
图3配套软件中视频源处理功能的原理图;
图4配套软件界面展示图;
图5配套软件导入视频源展示图;
图6配套软件相关语音、画面设置展示图;
图7交互式3维立体影像系统实地测试展示图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释部分:定向使用人群,即通过对用户行为数据的分析,找出潜在目标客群的共同行为特征的受众。
正如背景技术所介绍的,现有技术中存在360°全息成像系统所存在的人机交互及使用不便等不足,为了解决如上的技术问题,本申请提出了基于360°全息成像和语音识别的交互式三维立体影像系统。
本申请的一种典型的实施方式中,如图1所示,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述计算机控制系统包括语音识别模块,所述语音识别模块建立数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。
其中,影像播放与音响系统负责画面与声音的输出,光学成像系统负责三维立体画面的展示,配套软件则在计算机控制系统运行,实时对语音识别、画面、声音进行控制。
图2为改进后的语音识别过程图,在计算机控制系统中的语音识别功能的语言模型匹配环节进行“定向使用人群”的改进,数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库为定向人群专业用语和常用语数据库,包括定向人群的专业用语和常用语。
语音识别模块在实现语音识别时具体步骤为:
1)用户在使用语音识别时,计算机控制系统自动收集用户语音信息。
2)将收集的用户语音信息与人群定数据库一进行匹配,对使用者进行人群定向,该定向结果为人群的行业。
3)反复重复步骤二,计算机控制系统对人群定向的正确性进行检测,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,用户在使用本产品时,计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于10%,计算机控制系统会认为人群定向正确。
4)根据人群定向的结果,系统将从定向人群专业用语和常用语数据库进行搜索得到最终结果,即符合定向人群的专业用语和常用语。
计算机控制系统中还包括视频源处理模块,如图3所示,为配套软件中视频源处理功能的原理图,视频源处理模块通过以下方式实现对视频源的处理:在容器(JPanel)中添加四个JMF播放器(Player)、一个播放器的视频组件和控制组件(Component),采用十字分割的方式对四个JMF播放器(Player)进行分割,四个JMF播放器(Player)分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。如图中JMF播放器1对应用户导入的视频源正面,如图中JMF播放器2对应用户导入的视频源后面,如图中JMF播放器3对应用户导入的视频源左面,如图中JMF播放器4对应用户导入的视频源右面。该技术无需计算机大量运算便可得到处理后的视频源,处理时间大大降低。
本申请的另一种典型的实施方式中,提供了基于360°全息成像和语音识别的交互式三维立体影像系统,该基于360°全息成像和语音识别的交互式三维立体影像系统中还包括开发适用于交互式3维立体影像系统的配套软件,集成对语音识别控制、用户信息、视频源处理等功能。为方便后期软件的维护与跨平台性,该配套软件采用java程序语言开发设计。
上述配套软件安装在计算机中,配套软件界面如图4所示。配套软件导入视频源展示如图5所述。用户导入视频源后,点击图4中的开始按钮即可运行整个系统。图6为配套软件相关语音、画面设置展示图,包括语音识别的语言,视频的清晰度与音量的大小。图7为交互式3维立体影像系统实地测试展示图。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.基于全息成像和语音识别的交互三维立体影像系统,其特征是,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。
2.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。
3.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,所述语音识别模块在实现语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。
4.如权利要求3所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果继续与第一数据库进行反向匹配即根据人群定向结果匹配专业高频词汇,得到反向匹配结果,该结果为专业高频词汇,如果用户语音信息与反向匹配结果误差小于等于设定值,计算机控制系统则认为人群定向正确。
5.如权利要求4所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。
6.如权利要求1-5任一所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,所述计算机控制系统中还包括视频源处理模块,视频源处理模块通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。
7.基于基于全息成像和语音识别的交互三维立体影像系统的实现方法,其特征是,包括:
计算机控制系统实现对语音识别,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别;
影像播放与音响系统用于对计算机控制系统的画面与声音的输出;
光学成像系统用于实现对计算机控制系统的三维立体画面的展示。
8.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法,其特征是,计算机控制系统实现对语音识别时,首先建立数据库,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。
9.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法,其特征是,计算机控制系统实现对语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。
10.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法,其特征是,计算机控制系统实现对视频源处理,视频源处理通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。
CN201710137312.0A 2017-03-09 2017-03-09 基于全息成像和语音识别的交互三维立体影像系统及方法 Active CN106713899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710137312.0A CN106713899B (zh) 2017-03-09 2017-03-09 基于全息成像和语音识别的交互三维立体影像系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710137312.0A CN106713899B (zh) 2017-03-09 2017-03-09 基于全息成像和语音识别的交互三维立体影像系统及方法

Publications (2)

Publication Number Publication Date
CN106713899A true CN106713899A (zh) 2017-05-24
CN106713899B CN106713899B (zh) 2017-12-19

Family

ID=58918066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710137312.0A Active CN106713899B (zh) 2017-03-09 2017-03-09 基于全息成像和语音识别的交互三维立体影像系统及方法

Country Status (1)

Country Link
CN (1) CN106713899B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288469A (zh) * 2018-01-22 2018-07-17 维沃移动通信有限公司 一种音箱及交互方法
CN110006213A (zh) * 2019-03-05 2019-07-12 澳柯玛股份有限公司 一种带3d全息动态显示的新型冷藏箱

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
CN104898581A (zh) * 2014-03-05 2015-09-09 青岛海尔机器人有限公司 一种全息智能中控系统
CN105279147A (zh) * 2015-09-29 2016-01-27 武汉传神信息技术有限公司 一种译员稿件快速匹配方法
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
CN104898581A (zh) * 2014-03-05 2015-09-09 青岛海尔机器人有限公司 一种全息智能中控系统
CN105279147A (zh) * 2015-09-29 2016-01-27 武汉传神信息技术有限公司 一种译员稿件快速匹配方法
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288469A (zh) * 2018-01-22 2018-07-17 维沃移动通信有限公司 一种音箱及交互方法
CN110006213A (zh) * 2019-03-05 2019-07-12 澳柯玛股份有限公司 一种带3d全息动态显示的新型冷藏箱

Also Published As

Publication number Publication date
CN106713899B (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
CN107679522B (zh) 基于多流lstm的动作识别方法
CN108492817B (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN109257622A (zh) 一种音视频处理方法、装置、设备及介质
CN107728780A (zh) 一种基于虚拟机器人的人机交互方法及装置
CN106485984B (zh) 一种钢琴的智能教学方法和装置
CN107330444A (zh) 一种基于生成对抗网络的图像自动文本标注方法
CN102110399B (zh) 一种辅助解说的方法、装置及其系统
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN109065021A (zh) 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN107169409A (zh) 一种情感识别方法及装置
CN107436921A (zh) 视频数据处理方法、装置、设备及存储介质
CN106408480A (zh) 基于增强现实、语音识别的国学三维交互学习系统及方法
CN108230438A (zh) 声音驱动辅助侧脸图像的人脸重建方法及装置
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
CN109278051A (zh) 基于智能机器人的交互方法及系统
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN116109455B (zh) 一种基于人工智能的语言教学辅助系统
CN111126280A (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
CN106713899B (zh) 基于全息成像和语音识别的交互三维立体影像系统及方法
CN110245253A (zh) 一种基于环境信息的语义交互方法及系统
CN103945140A (zh) 视频字幕的生成方法及系统
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
CN110956142A (zh) 一种智能交互培训系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220415

Address after: 250014 No. 19, ASTRI Road, Lixia District, Shandong, Ji'nan

Patentee after: Shandong center information technology Limited by Share Ltd.

Address before: 250014 No. 88 East Wenhua Road, Shandong, Ji'nan

Patentee before: SHANDONG NORMAL University