CN113986069A - 基于智能语音的沉浸式vr影像系统交互方法 - Google Patents

基于智能语音的沉浸式vr影像系统交互方法 Download PDF

Info

Publication number
CN113986069A
CN113986069A CN202111318947.3A CN202111318947A CN113986069A CN 113986069 A CN113986069 A CN 113986069A CN 202111318947 A CN202111318947 A CN 202111318947A CN 113986069 A CN113986069 A CN 113986069A
Authority
CN
China
Prior art keywords
voice
server
interaction
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111318947.3A
Other languages
English (en)
Inventor
高晓瑾
韩冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111318947.3A priority Critical patent/CN113986069A/zh
Publication of CN113986069A publication Critical patent/CN113986069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了基于智能语音的沉浸式VR影像系统交互方法,从而推动交互式剧情发展的VR体验系统。利用沉浸式虚拟现实技术展现故事性的影像不仅可以强化表达内容,还具有良好参与性的体验特征。目前,普遍存在用户交互过程的输入效率低、沉浸感受到干扰、以及需要借助额外设备和需要一定的学习过程等问题,然而将智能语音技术作为交互手段,其特点可以为解决这些问题提供有益的探索。用户需要利用自然语音完成相应任务从而触发故事情节。目的是通过语音交互能够降低用户使用该系统的难度,同时提高用户在VR影像中交互的有效性和沉浸感。此外,还解决了在UE4引擎内实现语音捕获、将捕获的音频进行格式转化、与在线语音服务进行通讯、实现语义识别以及语音合成的音频数据在UE4引擎中载入等实现语音交互的技术难点问题。

Description

基于智能语音的沉浸式VR影像系统交互方法
技术领域
本发明属于虚拟现实影像领域,通过引导进行有效的语音交互实现推动虚拟影像的剧情发展,实现用户与影像的互动。
背景技术
虚拟现实(Virtual Reality,简称VR)技术通过整合视觉、听觉、触觉等方面的数字信息来生成一体化的虚拟环境,具有沉浸性、交互性、多感知性的特点,其中沉浸性是虚拟现实技术最具优势的特点,使用户能够在虚拟的环境中获得真实的感受。信息技术的飞速发展使得VR的技术趋于成熟并得到了多元化应用,在教育、医疗、影视、建筑、军事等领域都有相关应用案例。随着VR设备价格的下降,越来越多的公司将VR技术应用于他们的系统设计中。
利用虚拟现实技术展现故事性影像,将传统的第三人称视角变为第一人称视角,使观众参与到情节中,能够更好的理解故事内容,还能够提高观众的观影兴趣。在VR影像情节发展的推动上,通过有效地加入用户参与,以及有针对性的引导方式来推动情节演进,从而完成交互式的观看过程,区别于观看传统影像的被动接受,能够有效的提高用户的参与感、沉浸感,强化对情节的印象,带来良好的观影体验。但目前的VR影像中的交互类型普遍存在输入效率低、沉浸感受到干扰、需要借助额外设备和需要一定的学习过程等问题。
语音交互具备操作简单且高效快捷的优势,例如在传统图形用户界面下设置闹钟功能大约需要2-3分钟,而使用语音交互只需要30秒。语音交互不受空间的限制的特点,可以满足用户可以一边做其他事一边完成语音交互。从人类本能上来说,肢体和声音的行为方式先于其他方式,更符合人类本能。例如人类在看书的时候,会下意识的将文字转化为大脑里的语音。语音交互无需学习过程,也无需更多额外设备辅助完成交互行为。随着人工智能的发展,智能语音技术已经达到成熟阶段,能够有效地支撑起用于VR系统交互应用的开发需求。不足之处在于易受外界声音干扰,以及在心里层面上,用户可能会存在在公众场合不愿意发出声音完成交互的潜在风险,当然涉及私密的内容也不适合用语音来交互。
人工智能领域的发展使智能语音技术发展到相对成熟阶段,解决了传统语音交互对方言识别和语义分析不准确的问题,扩大了语音交互的应用范围。语音交互在技术应用层面,以对话为互动形式的语音助手为主,其中产品化最好的是以硬件形式应用的智能语音音箱,例如谷歌、亚马逊音箱。还有以软件形式存在的语音助手,如电脑端的小娜,手机端的Siri。除语音助手外,还有利用语音输入代替传统操作形式的产品,如语音互动电子邮件、网站的语音命令、语音交互游戏等。无论是硬件设备还是软件系统的成功案例都说明语音交互在当前可开发利用的价值,智能语音技术与VR影像的结合也具有宽广的创新应用的可能性。
发明内容
本发明是一个通过引导各种语音形式实现参与交互,从而推动剧情发展的VR体验系统。用户需要利用自然语音完成相应任务从而触发故事情节。语音交互能够降低用户使用该系统的难度,同时还能提高用户在VR影像中交互的有效性和沉浸感。
如图2和3,系统会令用户进入一个由声音控制的世界,通过同系统角色对话推动剧情发展,了解故事背景及系统操作方法。系统内部的交互流程共分为三步:
a.角色会引导用户完成咒语的复述任务。系统角色会说出选项,让用户直接回答前往海边还是山顶去看日落,用户完成复述后进入下一流程。
b.进入日落体验场景,系统角色会引导用户哼唱歌曲,发声的累计时长将会影响到太阳移动的高度变化。需要说出咒语来返回到房间,完成后,进入下一流程。
c.再次说出咒语,进入积木搭建的模型世界,开始自由的浏览体验。最后在系统角色的引导下正确说出咒语后体验结束。用户若不发声或咒语使用错误,系统角色会使用安慰和鼓励的话引导用户重新操作。
在用户与系统通过咒语进行交互中,会涉及到系统如何获取用户语音,并识别其咒语内容,具体实现则为基于一个语音识别程序进行语音到文字的转换及利用语音合成技术将设定好的对话脚本转换为音频文件,再通过语义识别判断用户输入是否符合系统设定,将情节需要的音频播放出来实现用户与系统或者系统角色进行对话的功能。
其中将用户输入的语音转换为文字需分为两步实现,即在系统内捕获用户输入语音,再将该语音转换为文字。在用户语音捕获部分,使用UE4引擎内的相关基础语音模块进行捕获。而语音至文字的转换以及将设定好的对话脚本转换为音频文件的语音合成实现部分则需借由第三方在线服务提供商提供的相关服务进行。其中由于服务提供商的要求需将语音捕获得到的音频文件进行转码处理,以及由于UE4程序的实现限制,需新增一中转服务器,通过UE4引擎主程序与该中转服务器建立HTTP连接的建立通讯,在服务器中实现对第三方在线服务提供商提供的相关服务的调用。
在语义识别部分,系统中的相关逻辑均以咒语输入或是与否的判断为主,语义识别中较为复杂的情感分析,语句逻辑拆解在该两种判断中所起到的作用较小。故采用关键词检索的方式,检索用户输入的语句中是否包含预设定的相关关键词,以此来进行语义识别。
在语音合成部分,因本系统中所需合成的语音数量较多,内容较长,且内容均为预先设定,无实施动态生成内容,为节省网络资源,本系统将预先将全部文案转换为对应音频文件,在激活相应对话时,只需播放对应文件即可。
附图说明
图1:设定的剧情线索图
图2:语音识别技术路线图
图3:系统架构图
图4:关键词对照表
具体实施方式
在一种基于语音交互与剧情推动的虚拟现实交互系统的实现中,分为以下两个模块:
UE4主模块:该模块中主要包含系统中UI,角色,场景,音乐音效,剧情逻辑的承载与实现,以及部分语音交互功能的实现。
中转服务器模块:该模块中主要包含语音交互的主要逻辑,即语音捕获与识别,语义识别,语音合成的实现。
如图2,语音交互技术实现路线是基于一个语音识别程序进行语音到文字的转换,语音识别程序包括对采集的语音进行特征提取,根据所述场景信息在数据库中匹配语法模型或语言模型,根据所述匹配的语法模型或语言模型进行模式匹配算法,得到语音识别结果。利用语音合成技术将设定好的对话脚本转换为音频文件,再通过语义识别,即先进行关键词匹配,匹配获得语义分析结果,判断用户输入是否符合系统设定,将情节需要的音频播放出来实现用户与系统或者系统角色进行对话的功能,实现语音反馈。语音交互部分的具体实现如下:
步骤S1:在UE4内使用录音组件AudioCapture获取用户录音并保存为wav文件,文件名使用固定名称与当前的系统时间拼接,以方便node服务器选取最新的音频文件。保存后UE4主程序向该中转服务器发送简单HTTP请求。中转服务器接收到请求后开始向在线语音服务接口发起请求。且由于服务仅支持识别pcm格式的音频文件,所以在向服务接口发送音频文件前,还需通过ffmpeg工具将文件转换为指定格式。中转服务器将基于接口密钥APIKey、APISecret经过hmac-sha256加密算法加密计算后的鉴权字段authorization、本地时间戳date、请求主机地址host与该音频文件一同通过websoeckt连接发送到在线语音服务接口。接受连接的最终识别结果,则将该结果json化,并通过上级路由传入的res对象的send方法发送回UE4主程序。完成语音识别。
步骤S2:在语音识别结果的处理方面,出于对于系统未来拓展性的考量,采用了与语音识别相同的,将关键字识别的逻辑放在中间服务器中进行实现。具体实现为在上一步语音输入识别完成后,将识别的文字结果直接传给服务器内部的处理模块。在模块内部保存一个预设好的关键词和关键语句对照表,如下图,并同时在UE4客户端内会维护一个储存当前互动进度的变量,每当其与中间服务器进行通讯时,会将该变量一并传输给服务器端。服务器内部的处理模块会结合该进度变量以及语音识别的文字结果和关键词、关键语句对照表进行比对,确认用户该次语音互动的结果,并将该结果通过网络请求返回给客户端。以此完成语义识别。
步骤S3:系统中选择使用离线的方式完成实现。具体实现为通过node.js脚本,脚本接收作为代合成的文字。保存后,在模块内引入crypto-js模块,通过该模块内的hmac-sha256加密算法将科大讯飞语音识别服务个人中心中所显示的APIKey、APISecret与当前主机,当前时间戳组合作加密操作,将加密结果保存为鉴权key。后引入ws模块,将上述鉴权key与本地host与服务的ws接口地址拼接,生成最终的访问地址。通过ws模块访问改地址,与服务器建立连接,准备进行通讯。在完成通讯建立后,将待合成的文字,音频编码,音频采样率,发音人名称,语速,音量,音高,文本编码格式一并作为请求参数,通过ws连接发送至科大讯飞语音合成服务器。为ws对象添加onMessage方法,监听服务端发出的通讯。在监听的回调函数内,将音频文件保存为特定的文件名,放在UE4客户端项目中。以供后续调用。以此方式完成语音合成。

Claims (1)

1.基于智能语音的沉浸式VR影像系统交互方法,其特征是,包括以下步骤:
步骤S1:在UE4内使用录音组件AudioCapture获取用户录音并保存为wav文件,文件名使用固定名称与当前的系统时间拼接,以方便node服务器选取最新的音频文件。保存后UE4主程序向该中转服务器发送简单HTTP请求。中转服务器接收到请求后开始向在线语音服务接口发起请求。且由于服务仅支持识别pcm格式的音频文件,所以在向服务接口发送音频文件前,还需通过ffmpeg工具将文件转换为指定格式。中转服务器将基于接口密钥APIKey、APISecret经过hmac-sha256加密算法加密计算后的鉴权字段authorization、本地时间戳date、请求主机地址host与该音频文件一同通过websoeckt连接发送到在线语音服务接口。接受连接的最终识别结果,则将该结果json化,并通过上级路由传入的res对象的send方法发送回UE4主程序。完成语音识别。
步骤S2:在语音识别结果的处理方面,出于对于系统未来拓展性的考量,采用了与语音识别相同的,将关键字识别的逻辑放在中间服务器中进行实现。具体实现为在上一步语音输入识别完成后,将识别的文字结果直接传给服务器内部的处理模块。在模块内部保存一个预设好的关键词和关键语句对照表,如下图,并同时在UE4客户端内会维护一个储存当前互动进度的变量,每当其与中间服务器进行通讯时,会将该变量一并传输给服务器端。服务器内部的处理模块会结合该进度变量以及语音识别的文字结果和关键词、关键语句对照表进行比对,确认用户该次语音互动的结果,并将该结果通过网络请求返回给客户端。以此完成语义识别。
步骤S3:系统中选择使用离线的方式完成实现。具体实现为通过node.js脚本,脚本接收作为代合成的文字。保存后,在模块内引入crypto-js模块,通过该模块内的hmac-sha256加密算法将科大讯飞语音识别服务个人中心中所显示的APIKey、APISecret与当前主机,当前时间戳组合作加密操作,将加密结果保存为鉴权key。后引入ws模块,将上述鉴权key与本地host与服务的ws接口地址拼接,生成最终的访问地址。通过ws模块访问改地址,与服务器建立连接,准备进行通讯。在完成通讯建立后,将待合成的文字,音频编码,音频采样率,发音人名称,语速,音量,音高,文本编码格式一并作为请求参数,通过ws连接发送至科大讯飞语音合成服务器。为ws对象添加onMessage方法,监听服务端发出的通讯。在监听的回调函数内,将音频文件保存为特定的文件名,放在UE4客户端项目中。以供后续调用。以此方式完成语音合成。
CN202111318947.3A 2021-11-09 2021-11-09 基于智能语音的沉浸式vr影像系统交互方法 Pending CN113986069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111318947.3A CN113986069A (zh) 2021-11-09 2021-11-09 基于智能语音的沉浸式vr影像系统交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111318947.3A CN113986069A (zh) 2021-11-09 2021-11-09 基于智能语音的沉浸式vr影像系统交互方法

Publications (1)

Publication Number Publication Date
CN113986069A true CN113986069A (zh) 2022-01-28

Family

ID=79747342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111318947.3A Pending CN113986069A (zh) 2021-11-09 2021-11-09 基于智能语音的沉浸式vr影像系统交互方法

Country Status (1)

Country Link
CN (1) CN113986069A (zh)

Similar Documents

Publication Publication Date Title
US10832686B2 (en) Method and apparatus for pushing information
US11475897B2 (en) Method and apparatus for response using voice matching user category
US20200126566A1 (en) Method and apparatus for voice interaction
CN110751943A (zh) 一种语音情绪识别方法、装置以及相关设备
CN111294463B (zh) 一种智能应答方法及系统
US10824664B2 (en) Method and apparatus for providing text push information responsive to a voice query request
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
KR20200011198A (ko) 대화형 메시지 구현 방법, 장치 및 프로그램
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN109885277A (zh) 人机交互设备、方法、系统和装置
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
CN116524791A (zh) 一种基于元宇宙的唇语学习辅助训练系统及其应用
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN113903338A (zh) 面签方法、装置、电子设备和存储介质
CN113850898A (zh) 场景渲染方法及装置、存储介质及电子设备
WO2021159734A1 (zh) 一种数据处理方法、装置、设备及介质
CN113763925A (zh) 语音识别方法、装置、计算机设备及存储介质
CN116756285A (zh) 虚拟机器人的互动方法、设备和存储介质
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN110706704A (zh) 用于生成语音交互原型的方法、装置和计算机设备
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
CN112447179A (zh) 一种语音交互方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication